8.4 告警策略:Alertmanager 配置指南与告警降噪最佳实践
1. 引言:告警疲劳的噩梦
很多公司的告警系统是这样的:
- 每天收到 1000+ 条告警
- 90% 是无效告警(误报、重复、低优先级)
- 真正重要的告警被淹没
- 运维人员对告警麻木,选择性忽略
这就是告警疲劳(Alert Fatigue)。它比没有告警更危险,因为你会错过真正的问题。
Alertmanager是 Prometheus 生态的告警管理组件,它不仅能发送告警,还能:
- 聚合告警:相同类型的告警合并
- 路由告警:根据标签路由到不同接收器
- 抑制告警:上游告警抑制下游告警
- 静默告警:临时关闭某些告警
2. Alertmanager 核心概念
2.1 告警生命周期
Prometheus -> 评估告警规则 -> 触发告警 -> Alertmanager -> 路由/聚合/抑制 -> 发送通知2.2 告警状态
- Firing:告警已触发
- Resolved:告警已恢复
- Pending:告警条件满足,但还在等待
for时间
3. 路由配置(Routing)
3.1 基础路由
route:receiver:'default-receiver'routes:-match:severity:criticalreceiver:'pagerduty'-match:severity:warningreceiver:'email'3.2 多级路由
route:receiver