SRE实践:服务可靠性案例课- 极客时间课程推荐/优惠

SRE实践:服务可靠性案例课--极客时间课程推荐/优惠

搞定 SRE,为你的系统保驾护航
白园前百度资深运维专家,前快手资深 SRE 专家
专栏 | 31讲 | 2082人已学习
优惠价¥59原价:99
去官网优惠购买

版权声明

本站非极客时间官网,与官方无任何关系。我们不提供课程下载或详细内容,仅作为课程分享和推荐平台。我们鼓励大家支持正版,尊重创作者的劳动成果,这样不仅能帮助创作者持续产出优质内容,也能让自己获得更好的学习体验。请通过官方渠道购买和学习课程,感谢您的理解与支持。

课程详情

你将获得:

  • 构建全面的服务可靠性保障体系;
  • 掌握 6 大 SRE 核心运维技能;
  • 深入解读 10+ 企业级故障案例;
  • 探索 AIOps 在服务保障中的实践。

课程介绍

在如今的数字化时代,服务的可靠性已成为企业竞争力的关键。无论是电商巨头还是初创公司,服务中断都可能带来经济与品牌信誉的双重损失。然而,确保服务的连续性和稳定性并非易事,需要我们提前预防潜在的风险,快速响应突发事件。

想要做到这一点不仅需要强大的技术支撑,更需要培养一种全面的可靠性思维。为此,我们特别设计了这门《SRE 实践:服务可靠性案例课》。这门课程可以帮助你:

  • 快速识别和填补监控体系的漏洞;
  • 构建完善的容量保障体系,让资源发挥最大效率;
  • 做好应急预案,提高响应的速度;
  • 强化可靠性保障体系基础设施建设;
  • 养成可靠性保障思维;
  • 借助 AIOps 工具,让可靠性工作更加的全面和智能;
  • ……

从技术到业务,从个人意识到组织文化,全方位提升你对服务可靠性的理解和实践能力。

课程设计

基础篇

基础篇会系统地介绍可靠性保证最常见的六项技能:监控、容量、变更、预案、备份和恢复、文化和机制,了解这些能力可以解决哪些问题。此外还要培养自身的可靠性意识,不仅仅停留在使用工具和技术解决问题的阶段,而是从意识层开始改变。

应用篇

在应用篇,我们将深入分析具体的案例并探讨监控、容量、变更等技能在实践中的应用。特别是互联网公司那些影响非常大的故障,我们将通过分析这些案例看到背后的问题。同时你会了解到一些复杂场景下的应对方案,比如机房故障应该如何应对等等。

智能运维篇

这部分我们会介绍 AI 和可靠性结合能产生哪些火花,以及业界的优秀案例。比如通过异常检测,解决传统监控中难以发现的复杂问题,提高对系统异常的识别速度和准确性;利用 AI 进行时序数据分析和回归预测,可以更准确地预估系统负载,从而实现资源的优化分配和弹性扩容等。在故障的时候如何做更加智能的决策,给出合理的建议。

课程目录

开篇词

  • 开篇词|互联网公司故障频发,我们应该如何保障服务持续可靠?
  • 导学|如何构建坚不可摧的服务可靠性体系?

基础篇

  • 01|监控:如何从业务视角出发添加监控?
  • 02| 容量:从业务视角看容量到底是什么?
  • 03|变更:为什么说变更是可靠性的第一杀手?
  • 04|预案:预案的三板斧指的是什么?
  • 05|备份和恢复:可靠性的最后一道防线
  • 06|可靠性文化和规范:人是万物的尺度

热点加餐

  • 微软蓝屏事件:如何应对变更带来的问题?
  • 网易云音乐故障猜想:如何避免迁移带来的问题?

场景篇

  • 07|监控场景:为什么所有故障都有监控的因素?
  • 08|容量场景(一):12306为什么现在能扛住春节抢票了?
  • 09|容量场景(二):一次让网盘雪崩的热点事件
  • 10|容量场景(三):一条让新浪工程师们通宵加班的微博
  • 11|变更场景(一):一条让Facebook蒸发百亿的指令
  • 12|变更场景(二):一次简单升级竟然损失几千万
  • 13|变更场景(三): 连续绊倒两个云厂商的故障
  • 14|预案场景(一):B站最为深刻的一次自我剖析
  • 15|预案场景(二):一次机房故障为何让多位高管被辞退?
  • 16 |备份和恢复:一次误操作中断7小时
  • 17 |可靠性意识:可靠性Oncall十大原则

AIOps篇

  • 18|概述:AIOps涉及哪些领域和方向?
  • 19|AIOps故障发现:我们如何看到肉眼看不到的故障?
  • 20|AIOps问题定位:如何在报警风暴中找到暴风眼?
  • 21|AIOps容量预测:如何准确地预估流量?
  • 22|AIOps变更管理:如何进行更全面地检查与更精准地阻断?
  • 23|AIOps智能决策:给故障处理安装一个大脑
  • 24|AIOps数据可靠性:如何预测磁盘故障
  • 25|可靠性基础科学:可靠性背后的运筹学和概率学

结束语

  • 结束语|这里不是终点,而是一个起点
  • 结课测试|来赴一场满分之约

作者介绍

拥有十余年 SRE 运维经验。 曾负责百度网盘、快手海外版服务稳定性工作,同时也是百度、快手两次央视春晚红包核心保障人员。十余年来经历过数几百次故障处理和复盘,在监控、容量、预案、变更、数据可靠性、AIOps 等多个方向有自己独特的经历和见解。

推荐

RAG在企业数智化场景下的设计与改进 - 极客时间课程推荐/分享/优惠/折扣
RAG在企业数智化场景下的设计与改进
洞察成功实施企业级 RAG 的关键要素
张颖峰英飞流创始人
视频课 | 58人已学习
优惠价¥29原价:39
去官网优惠购买
基于人因的用户体验设计课 - 极客时间课程推荐/分享/优惠/折扣
基于人因的用户体验设计课
让人无法说No的体验设计奥秘
刘石前华为用户体验设计系统部部长,新中国成立70周年用户体验设计70人之一
专栏 | 7238人已学习
优惠价¥59原价:129
去官网优惠购买
Rust实战 · 手写下一代云原生消息队列 - 极客时间课程推荐/分享/优惠/折扣
Rust实战 · 手写下一代云原生消息队列
项目驱动,带你入门 Rust 系统级编程
许文强前腾讯云 Kafka 技术负责人
专栏 | 708人已学习
优惠价¥39原价:39
去官网优惠购买
云计算必修小课 - 极客时间课程推荐/分享/优惠/折扣
云计算必修小课
“云”端漫步,细说云服务
吕蕴偲云计算工程师
视频课 | 2404人已学习
优惠价¥9原价:39
去官网优惠购买
云时代的JVM原理与实战 - 极客时间课程推荐/分享/优惠/折扣
云时代的JVM原理与实战
3个月带你攻克JVM核心技术
康杨京东资深架构师
专栏 | 3831人已学习
优惠价¥59原价:129
去官网优惠购买
超级访谈:对话毕玄 - 极客时间课程推荐/分享/优惠/折扣
超级访谈:对话毕玄
从非专业到CEO,比小说更精彩的成长复盘
毕玄贝联珠贯创始人兼CEO,前阿里P10
专栏 | 10807人已学习
优惠价¥59原价:99
去官网优惠购买