SRE实战手册--极客时间课程推荐/优惠
从0到1带你搞定系统稳定性
专栏 | 13讲 | 13946人已学习
优惠价¥29原价:68
官网优惠购买
版权声明
本站非极客时间官网,与官方无任何关系。我们不提供课程下载或详细内容,仅作为课程分享和推荐平台。我们鼓励大家支持正版,尊重创作者的劳动成果,这样不仅能帮助创作者持续产出优质内容,也能让自己获得更好的学习体验。请通过官方渠道购买和学习课程,感谢您的理解与支持。
课程详情
你将获得:
- 理解 SRE 的正确姿势;
- 10+ SRE 必学必会知识点;
- 可落地的故障应急处理机制;
- 2 种典型 SRE 组织架构案例分享。
课程介绍
SRE(Site Reliability Engineering),网站稳定性工程,最早是由Google设置的一类工程师岗位,专职负责其超大规模分布式产品(如搜索、Gmail、Docs等)的稳定性。而后,SRE慢慢发展成了一系列面向稳定性的,包括技术、管理、流程、组织架构,以及文化建设的最佳实践,并最终被提炼成一套方法论,广泛流传。
在国内,SRE的这套方法论,也被很多企业的IT团队作为技术能力提升和组织转型,特别是运维转型的参考标准。但是,在实际落地这套方法论时,大家有很多疑惑,比如:
- SRE如果不是运维的升级版,那它到底是什么?
- SRE涉及范围如此之大,到底应该从哪里入手建设呢?
- 在稳定性方面,有些公司已经做了很多工作,特别是在技术体系搭建上,为什么还是故障频发?难道单纯的技术保障还不够吗?
- 引入了SRE,团队的能力应该怎么提升?组织架构应该怎么匹配呢?
因此,我们邀请赵成老师开设了《SRE实战手册》这个课程。他将结合自己的实践经验,从基础理论和实践操作两方面入手,一次性解决你心中的困惑,帮助你正确认识SRE,掌握可落地的实践方法。
这个课程分为基础篇和实践篇两大模块。
- 基础篇:带你从实践的角度理解SRE是什么,并以SRE的基本概念SLO和SLI作为切入点,教你一步步建立起SRE稳定性标准。最后结合具体的电商案例,分享在实际场景中设定稳定性目标应该考虑的因素。
- 实践篇:围绕“故障”这个影响稳定性的核心事件,分享故障发现、故障处理、故障复盘三个阶段的最佳实践。同时,着眼落地SRE时绕不开的组织架构问题,分享真实的组织架构设置实践和高效的跨团队协作经验。
课程目录
开篇词
- 开篇词|SRE是解决系统稳定性问题的灵丹妙药吗?
基础篇
- 02 | 系统可用性:没有故障,系统就一定是稳定的吗?
- 01|SRE迷思:无所不能的角色?还是运维的升级?
- 03 | SRE切入点:选择SLI,设定SLO
- 04 | 错误预算:达成稳定性目标的共识机制
- 05 | 案例:落地SLO时还需要考虑哪些因素?
实践篇
- 06 | 故障发现:如何建设On-Call机制?
- 07|故障处理:一切以恢复业务为最高优先级
- 08|故障复盘:黄金三问与判定三原则
- 09|案例:互联网典型的SRE组织架构是怎样的?
- 10 | 经验:都有哪些高效的SRE组织协作机制?
结束语
- 结束语|聊聊我的SRE落地心路历程
- 答疑|没什么能阻挡你拓展边界的渴望
作者介绍
赵成,《进化:运维技术变革与实践探索》作者,前蘑菇街技术总监,公众号“Forrest随想录”的作者,多届ArchSummit运维专题明星讲师和优秀出品人,TGO杭州分会会员。目前专注于云计算和人工智能时代的运维转型和提升。
加入蘑菇街之前,赵成在华为工作了七年,经历过开发、测试、运维以及一线客户服务等诸多岗位。他在不断的历练中迅速成长,培养了全面思考的意识和能力,积累了丰富的电信级和互联网业务研发及运维经验。
赵成说他踏上运维之路有很大的偶然性,第一,不忍心看着自己跟团队开发出来的系统到了线上总是出问题,所以每当有问题时,他总是第一个冲在前面解决问题,久而久之,便积累了丰富的经验,也成为团队中比较重要的角色;第二,也是更重要的一个因素,他说自己非常享受那种攻克难题之后的成就感。
他所遇到过的挑战,他的尝试、实践经验和感悟体会,他十年来对运维产生的不一样的思考,都将在这个专栏里和你分享。