运维监控系统实战笔记- 极客时间课程推荐/优惠

运维监控系统实战笔记--极客时间课程推荐/优惠

从业务场景出发,搭建监控系统
秦晓辉快猫星云联合创始人,Open-Falcon、Nightingale、Categraf 核心研发
专栏 | 25讲 | 10465人已学习
优惠价¥59原价:99
官网优惠购买

版权声明

本站非极客时间官网,与官方无任何关系。我们不提供课程下载或详细内容,仅作为课程分享和推荐平台。我们鼓励大家支持正版,尊重创作者的劳动成果,这样不仅能帮助创作者持续产出优质内容,也能让自己获得更好的学习体验。请通过官方渠道购买和学习课程,感谢您的理解与支持。

课程详情

你将获得

  • 理论扫盲:监控领域专业知识一网打尽
  • 选型指导:10 大开源监控方案横评对比
  • 快速上手:搭建、增强、落地监控系统
  • 实战指南:带你搞定 8 大常见监控需求

课程介绍

可被监控和观测是我们开发软件时必须考虑的一环。优秀的软件,一定是考虑了各类故障的发现和应对手段的,因此它们都内置了监控数据的暴露方法,用户可以对其进行观测,了解其健康状况,及时感知系统出现的问题。

随着时代的发展,监控也从最开始的一句话需求——及时感知系统出现的问题,发展到了希望预知问题,并且可以洞察业务经营数据,越来越多的诉求让我们逐渐意识到监控的重要作用。

比如:

  • 通过监控我们可以了解数据趋势,知道系统在未来的某个时刻可能出问题,预知问题。
  • 通过监控我们可以了解系统的水位情况,为服务扩缩容提供数据支撑。
  • 通过监控我们可以给系统把脉,感知到哪里需要优化,比如一些中间件参数的调优。
  • 通过监控我们还可以洞察业务,提供业务决策的数据依据,及时感知业务异常。

因此,优秀的软件,一定会暴露完备的监控指标,或者用现在时髦的话讲,优秀的软件一定是可观测的

就拿我们常见的数据库中间件来说,你会发现虽然大家的指标暴露方式不同,但没有哪个是缺失监控能力的。

监控领域相关的产品很多,监控数据采集器有 Telegraf、Grafana-agent、Datadog-agent、Categraf、Prometheus 生态的各种 Exporters,时序数据库有 M3DB、VictoriaMetrics、Thanos、InfluxDB、TimescaleDB 等,监控系统有 Zabbix、Open-Falcon、Prometheus、Nightingale 等,整个监控技术体系非常庞杂。

不同的监控目标应该选用哪个采集器?机器、中间件、数据库、应用程序分别应该怎么监控?应该着重关注哪些指标?时序数据量很大,应该选用什么样的存储?作为一个公司级的基础设施,需求各异,选用哪一款系统更便于扩展?

为了解答这些困惑,我们请到了快猫星云的联合创始人,同时也是 Open-Falcon、Nightingale、Categraf 的核心研发秦晓辉老师。他会结合自己在这一领域多年的经验和思考,介绍监控领域的产品及优缺点,带你搭建监控系统,实现业务、应用、组件、资源四大场景的监控需求。

课程设计

1. 基础知识概要介绍

学习监控知识,得先了解为什么,也就是监控是因何产生的,解决了什么问题,有哪些典型的方案,分别有什么优缺点,通用的监控系统架构是怎样的。通过这些内容,你可以了解监控及相关的概念,为接下来的正式学习打好铺垫。

2. 搭建并优化 Prometheus

这个部分老师会带你搭建 Prometheus 这个监控系统,剖析它的关键设计,并给出 Prometheus 薄弱环节的解决方案。让你有个感性认识的同时,帮助你理解监控系统的相关设计。

3. 监控实战,搞定常见的监控需求

操作系统、网络设备、MySQL、Redis、Kafka、ElasticSearch、Kubernetes、应用、日志等所有常见监控的需求统统搞定。这个部分讲解各个监控目标是如何采集监控数据的,有哪些指标最为关键。中间穿插一些问题排查手段,并提供配置好的仪表盘,让你开箱即用的同时,知其然并知其所以然。

4. 告警实战,设计良好的告警系统应该具备哪些能力

这个部分的重点就是甄别异常数据并发出告警,包括告警规则、屏蔽规则、抑制规则、订阅规则的管理,还有告警事件的管理以及告警事件触发后的自愈逻辑。

一般监控系统都支持配置告警规则,可以产生告警事件,但是针对告警事件后续的支持偏弱,没有很好的聚合收敛、事件闭环的能力。这个部分主要是为了让你了解告警部分相关的设计逻辑和考量点,帮助你选型这方面的商业产品。当然,如果你后续选择自研,这些思考也会大有裨益。

不管你是运维工程师,还是业务研发、架构师,抑或者是监控和稳定性系统建设人员,运维监控相关知识都是工作中必不可少的一部分。希望这个课程可以补齐你在监控领域缺失的“拼图”。

课程目录

开篇词

  • 开篇词|每个关注高可用的人,都应该了解监控知识

监控概述

  • 01|背景信息:监控需求以及开源方案的横评对比
  • 02|基本概念:监控圈子有哪些行业黑话?
  • 03|架构概述:一个监控系统的典型架构是什么样的?

搭建并增强 Prometheus

  • 04|如何快速搭建Prometheus系统?
  • 05|Prometheus中有哪些关键设计?
  • 06|PromQL有哪些常见的使用场景?
  • 07|如何解决Prometheus的存储容量问题?
  • 08|如何用 Nightingale 解决 Prometheus 的告警管理问题?

监控实战

  • 09|监控概论(上):有哪些方法可以指导监控数据采集?
  • 10|监控概论(下):监控数据的采集方式及原理
  • 11|机器监控:操作系统有哪些指标需要重点关注?
  • 12|网络监控:如何监控网络链路和网络设备?
  • 13|组件监控:MySQL的关键指标及采集方法有哪些?
  • 14|组件监控:Redis的关键指标及采集方法有哪些?
  • 15|组件监控:Kafka的关键指标及采集方法有哪些?
  • 16|组件监控:Elasticsearch的关键指标及采集方法有哪些?
  • 17|组件监控:Kubernetes Node组件的关键指标与数据采集
  • 18|组件监控:Kubernetes 控制面组件的关键指标与数据采集
  • 19|应用监控:如何使用埋点方式对应用监控?
  • 20|应用监控:如何使用日志来监控应用?

监控告警

  • 21|事件管理(上):事件降噪的几个典型手段
  • 22|事件管理(下):如何保证事件的闭环处理?

结束语

  • 结束语|弱水三千,只取一瓢饮
  • 结课测验|来赴一场满分之约!

作者介绍

秦晓辉,快猫星云联合创始人,Open-Falcon、Nightingale、Categraf 核心研发,拥有 10 余年运维研发经验,先后任职于百度、小米、金山云、滴滴,目前在快猫星云合伙创业,为客户提供监控和稳定性保障类产品,对监控和稳定性保障的方法论及实践路径有着深刻的洞见。同时他也是 Open-Falcon、Nightingale、Categraf 等开源软件的联合创始人和核心研发,多年笔耕不辍,活跃在代码前线。

推荐

手把手带你写一个Web框架 - 极客时间课程推荐/分享/优惠/折扣
手把手带你写一个Web框架
从0到1,实现自己的工业级Web框架
叶剑峰腾讯高级工程师,前滴滴技术专家
专栏 | 23377人已学习
优惠价¥59原价:129
官网优惠购买
Rust实战 · 手写下一代云原生消息队列 - 极客时间课程推荐/分享/优惠/折扣
Rust实战 · 手写下一代云原生消息队列
项目驱动,带你入门 Rust 系统级编程
许文强前腾讯云 Kafka 技术负责人
专栏 | 1114人已学习
优惠价¥29原价:39
官网优惠购买
AI绘画核心技术与实战 - 极客时间课程推荐/分享/优惠/折扣
AI绘画核心技术与实战
8 周实现商用级图像特效 
南柯某头部大厂图像团队技术 leader,高级算法专家
专栏 | 7641人已学习
优惠价¥59原价:129
官网优惠购买
AI大模型之美 - 极客时间课程推荐/分享/优惠/折扣
AI大模型之美
揭开ChatGPT面纱,拥抱AI新潮流
徐文浩bothub创始人
专栏 | 36393人已学习
优惠价¥68原价:199
官网优惠购买
跟阿铭学Linux - 极客时间课程推荐/分享/优惠/折扣
跟阿铭学Linux
跟阿铭学Linux
李世明前腾讯高级运维工程师
专栏 | 1086人已学习
优惠价¥34.3原价:49
官网优惠购买
etcd实战课 - 极客时间课程推荐/分享/优惠/折扣
etcd实战课
etcd 核心原理到大规模实践
唐聪腾讯云资深工程师,etcd活跃贡献者
专栏 | 29144人已学习
优惠价¥59原价:129
官网优惠购买