8.1 拒绝两眼一抹黑:日志、监控、告警三位一体的可观测性方法论
1. 引言:可观测性的三个支柱
在云原生时代,系统复杂度呈指数级增长。当生产环境出现问题时,如果缺乏可观测性,你就像在黑暗中摸索。
可观测性(Observability)不是监控(Monitoring)的升级版,而是一个更宏大的概念:
- 监控:告诉你“系统挂了”(What)
- 可观测性:告诉你“为什么挂了”(Why)
可观测性由三大支柱组成:Metrics(指标)、Logs(日志)、Traces(链路追踪)。
2. 三大支柱深度解析
2.1 Metrics(指标):系统的“体温计”
定义:聚合的、数值型的时间序列数据。
特点:
- 低存储成本:只存储聚合值(如平均值、最大值),不存储原始数据
- 查询快速:适合实时告警和 Dashboard
- 信息有限:只知道“CPU 是 80%”,不知道“为什么是 80%”
典型指标:
- Counter(计数器):HTTP 请求总数、错误总数
- Gauge(仪表盘):当前连接数、内存使用量
- Histogram(直方图):请求延迟分布(P5