监控指标

news/2026/1/23 11:53:07/文章来源:https://www.cnblogs.com/suyj/p/19521376

Kubernetes 告警规则清单


生命周期类告警

类别 指标 / 事件 常见根因 告警信息 / 内容 实际 PromQL
生命周期 Pod 状态异常 资源不足 / 调度约束 / 镜像拉取慢 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} 处于 {{$labels.phase}} 状态持续超过 3 分钟 ```promql sum_over_time(kube_pod_status_phase{namespace="namespace-name", pod_name=~"(online
生命周期 Pod 启动失败(CrashLoop / ImagePullBackOff / ErrImagePull) 配置错误 / 依赖未就绪 / 启动命令异常 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} 超过 15 分钟未启动成功,等待原因 {{$labels.reason}} ```promql avg_over_time(kube_pod_container_status_waiting_reason{namespace="namespace-name", pod_name=~"(online
生命周期 Pod 重启提醒(1 分钟 ≥ 1 次) 网络抖动 / 短暂 OOM / 发布重建 / 外部依赖瞬断 / 容器运行时异常 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}}{{$labels.metrics_params_time}} 分钟内重启超过 {{$labels.metrics_params_value}} 次,当前重启 {{$value}} ```promql increase(kube_pod_container_status_restarts_total{namespace="namespace-name", pod_name=~"(online
生命周期 Pod 频繁重启(5 分钟 ≥ 3 次) CrashLoop / 持续 OOM / 探针配置不当 / 依赖异常 / 权限挂载错误 Pod 频繁重启(5 分钟 ≥ 3 次),Namespace: {{$labels.namespace}},Pod: {{$labels.pod}} ```promql ceil( increase( kube_pod_container_status_restarts_total{ job="_kube-state-metrics", namespace="namespace-name", pod=~"(online

资源类告警

类别 指标 / 事件 常见根因 告警信息 / 内容 实际 PromQL
资源 Pod 容器近期异常终止 OOMKilled:内存超限
Error:应用崩溃
Evicted:节点驱逐
DeadlineExceeded:退出超时
ContainerCannotRun:容器无法运行
{{ $labels.namespace }}/{{ $labels.pod_name }} 中的容器 {{ $labels.container }} 发生异常终止,原因:{{ $labels.reason }} ```promql ( increase(kube_pod_container_status_restarts_total{ namespace="namespace-name", pod_name=~"(online
资源 容器内存使用率突增 内存泄漏 / 缓存增长 / 负载提升 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 内存使用率 {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%,当前值 {{ printf "%.2f" $value }}% ```promql ( sum(container_memory_working_set_bytes{id!="/", namespace="namespace-name", pod_name=~"(online
资源 容器 CPU 使用率突增 CPU 突发负载 / 性能热点 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU 使用率 {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%,当前值 {{ printf "%.2f" $value }}% ```promql 100 * ( sum(rate(container_cpu_usage_seconds_total{id!="/", namespace="namespace-name", pod_name=~"(online
资源 Pod CPU 限流突增 CPU limit 过低 / 并发突增 / noisy neighbor 命名空间: {{ $labels.namespace }} Pod: {{ $labels.pod_name }} 容器: {{ $labels.container }} CPU throttling > 60%,检查 CPU limit / requests / 节点资源 ```promql 100 * ( sum by (namespace, pod_name, container) ( rate(container_cpu_cfs_throttled_seconds_total{ namespace="namespace-name", pod_name=~"(online

健康检查类告警

类别 指标 / 事件 常见根因 告警信息 / 内容 实际 PromQL
健康检查 Readiness NotReady 就绪探针失败 / 容器重启 / 资源不足 / 节点异常 Pod 未就绪(NotReady)已持续超过 3 分钟,当前无法接收服务流量。Namespace: {{ $labels.namespace }}, Pod: {{ $labels.pod_name }}, 容器: {{ $labels.container }},建议检查 Pod 事件 / 探针 / 资源 / 节点 ```promql kube_pod_status_ready{ namespace="namespace-name", pod_name=~"(online

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1204780.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

YOLOv9 Torchaudio安装必要性:音频模块是否冗余?

YOLOv9 Torchaudio安装必要性:音频模块是否冗余? 你有没有在使用YOLOv9镜像时,看到torchaudio0.10.0这个依赖项,心里闪过一个疑问:“这玩意儿是干嘛的?我做目标检测,又不做语音识别&#xff0c…

东北卓越名车的配件供应靠谱吗,深度剖析供应体系!

本榜单依托东北地区高档车维修改装市场的全维度调研与真实车主口碑反馈,深度筛选出五家专注路虎捷豹服务的标杆机构,为车主解决怕被坑、怕修坏、怕等、怕假货、没地方去的核心痛点,助力精准匹配专业可靠的服务伙伴。…

评测报告:浙江广告公司在品牌塑造中的角色与价值,当下广告优质品牌选购指南

在美妆行业高度同质化的竞争环境中,品牌视觉设计已成为企业突破市场壁垒、建立差异化认知的核心抓手。作为深耕美妆领域17年的专业机构,杭州帕特广告策划有限公司(以下简称“帕特广告”)凭借对行业趋势的精准洞察与…

FSMN-VAD服务守护:后台常驻进程配置教程

FSMN-VAD服务守护:后台常驻进程配置教程 1. 为什么需要让FSMN-VAD服务“一直在线” 你可能已经成功跑通了FSMN-VAD语音端点检测的Web界面——上传一段录音,点击检测,几秒后看到清晰的时间戳表格。但很快会发现一个问题:关掉终端…

光伏线缆制造厂哪个值得选,品恩泰克品质保障受认可

2026年十五五规划推动能源绿色转型提速,光伏产业作为可再生能源主体赛道迎来爆发式增长,光伏线缆作为系统能量纽带,其定制工期效率、产品线覆盖广度及品质稳定性直接决定光伏项目的落地速度与长期收益。然而当前市场…

沪苏浙皖设备模型服务商推荐,聚景模型上榜了吗?

一、基础认知篇 问题1:什么是设备模型服务商?和普通模型制作商有何区别? 设备模型服务商是以工业、机械、航空航海等领域的设备为核心服务对象,提供从需求调研、设计优化到模型制作、交付维护全链路解决方案的专业…

2025浙江山地速降基地大揭秘!口碑爆棚的TOP5来袭,山地速降/山地车骑行/山地车/户外骑行,山地速降基地口碑推荐

随着全民健身热潮的深入与户外运动的兴起,山地速降这项集技巧、勇气与自然探索于一体的极限运动,正从专业小众圈层走向更广泛的运动爱好者。浙江,凭借其得天独厚的丘陵地貌与成熟的文旅产业基础,已成为国内山地车运…

2026年浑南专业的车衣改色实体店推荐榜单,车衣改色/太阳膜/贴车衣/汽车车衣/隐形车衣/汽车贴膜,车衣改色定制哪家好

随着汽车消费市场个性化需求激增,车衣改色已成为车主表达审美、保护车漆的核心选择。据行业数据显示,2025年国内车衣改色市场规模突破120亿元,年复合增长率达25%,消费者对施工工艺、产品品质及服务体验的关注度持续…

在线教育平台应用:学生答题语气分析提升教学反馈

在线教育平台应用:学生答题语气分析提升教学反馈 1. 引言:当AI听懂学生的“语气”,教育反馈迎来质变 你有没有遇到过这样的情况?在线课堂上,学生回答问题时声音低沉、语速缓慢,看起来心不在焉&#xff1b…

Qwen模型并发能力不足?多实例负载均衡部署方案

Qwen模型并发能力不足?多实例负载均衡部署方案 1. 为什么儿童向图片生成需要特别关注并发能力 你有没有试过给一群小朋友同时演示“小熊穿宇航服”“小兔子开飞船”这类可爱动物图片的生成过程?当十多个孩子围在屏幕前,每人喊一个动物名字&…

Java 微服务 APM 实战:Prometheus+Grafana 构建全维度性能监控与资源预警体系 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

为什么Qwen3-14B适合中小企业?低成本落地实战案例

为什么Qwen3-14B适合中小企业?低成本落地实战案例 1. 中小企业AI落地的真实困境:不是缺能力,是缺“刚刚好” 很多中小企业老板和技术负责人聊过,他们不是没想过用大模型—— 想用AI写产品文案、自动回复客户咨询、分析销售数据、…

强烈安利10个AI论文工具,研究生搞定毕业论文!

强烈安利10个AI论文工具,研究生搞定毕业论文! AI 工具助力论文写作,效率翻倍 在研究生阶段,论文写作是每位学生必须面对的重要任务。而随着 AI 技术的不断进步,越来越多的 AI 工具被引入到学术写作中,极大地…

2026苏州靠谱的综合律师事务所推荐

在苏州地区,无论是企业经营还是个人生活,面对复杂的法律问题时,选择一家靠谱的综合律师事务所至关重要。优质的法律服务不仅能提供专业的法律支持,还能帮助当事人有效规避风险、维护合法权益,因此了解当地值得信赖…

为什么Qwen2.5部署总卡顿?0.5B极速镜像保姆级教程来了

为什么Qwen2.5部署总卡顿?0.5B极速镜像保姆级教程来了 你是不是也遇到过:想在本地部署 Qwen2.5,结果加载慢、响应迟、动不动就卡住?尤其是用 CPU 跑大模型时,等生成一句话的时间都能泡杯咖啡了。问题出在哪&#xff1…

2026年广州靠谱的保险纠纷调解机构推荐,保险纠纷哪家性价比高?

(涵盖保险纠纷仲裁、保险纠纷调解、专业保险法律服务等核心领域服务商推荐) 2026年保险消费市场持续扩容,保险纠纷的高效解决已成为保障消费者权益、维护行业健康生态的关键环节。无论是复杂的保险拒赔仲裁、诉前调…

Qwen2.5降本实战:0.5B小模型如何实现零GPU高效运行

Qwen2.5降本实战:0.5B小模型如何实现零GPU高效运行 1. 为什么0.5B小模型突然“火”了? 你有没有试过在一台没有显卡的旧笔记本上跑大模型?点下“发送”后,光标转圈转了两分钟,最后弹出一句:“抱歉&#x…

YOLO11体验报告,目标检测优劣分析一文看懂

YOLO11体验报告,目标检测优劣分析一文看懂 1. 引言:为什么YOLO11值得你关注? 你有没有遇到过这样的问题:在做目标检测项目时,模型要么准确率高但跑得太慢,要么速度快可小物体根本识别不出来?这…

SGLang结构化生成扩展:自定义格式输出教程

SGLang结构化生成扩展:自定义格式输出教程 1. 为什么你需要结构化生成能力 你有没有遇到过这些情况? 调用大模型生成JSON,结果返回了一段乱七八糟的文本,还得自己写正则去提取;做API对接时,模型输出格式…

YOLOE训练160 epoch效果如何?完整过程记录

YOLOE训练160 epoch效果如何?完整过程记录 YOLOE不是又一个“YOLO变体”的简单迭代,而是一次对目标检测范式的重新思考:当模型不再被预设类别束缚,当一张图、一句话、甚至无需提示就能准确识别万物——我们离“实时看见一切”的目…