CPU softlockup(软锁定)

news/2025/11/12 16:05:36/文章来源:https://www.cnblogs.com/gaoyuechen/p/19214432
CPU softlockup(软锁定)是 Linux 内核 watchdog 机制报出的“某颗 vCPU 在内核态连续 20 s(默认)没有发生任务切换”的异常。
本质是:内核线程/中断上下文长时间关抢占(或死循环),导致该核上的 watchdog 线程得不到调度,从而在日志里打印
watchdog: BUG: soft lockup - CPU#X stuck for 22s! [process:PID]
 

一、对 K8s 与 etcd 的直接影响

  1. kubelet 卡死:
    • 无法按时向 apiserver 发送心跳 → 节点被标记为 NotReady,触发 Pod 驱逐。
  2. etcd 卡死:
    • 它的 raft goroutine 若正好落在受害 CPU,会因 20 s 内无磁盘 I/O 或网络回应而被同伴视为“失联”,触发新一轮 leader 选举,造成 etcd 主从频繁切换;严重时整个 apiserver 出现 5xx,集群控制面抖动。
  3. 容器运行时(containerd/docker)同样可能因 runc 卡住而无法创建/销毁容器,Pod 一直 ContainerCreatingTerminating

二、常见根因(结合近期案例)

  • 内核模块死循环或自旋锁长期未释放
     
  • cgroup 读取路径(kubelet 统计内存/CPU 用量)在 5.10 以下内核有已知锁竞争,64 核以上机器极易触发;
  • 驱动 bug、IPI 风暴、过量 iptables 规则导致 softirq 占用过高
     
  • 虚拟机场景下宿主机过载,vCPU 被抢占,Guest 侧看就是“softlockup”。

三、快速止血与后续规避

  1. 立即恢复
    • 登录节点 echo 3 >/proc/sys/vm/drop_caches 清缓存,减少 cgroup 遍历量;
    • 若 repeatable,可临时 echo 30 >/proc/sys/kernel/watchdog_thresh 把阈值放宽到 30 s,避免立刻 panic。
  2. 根因处理
    • 升级内核 ≥ 5.10.134(官方修复了大量 cgroup 锁竞争);
    • 给 kubelet 加参数 --housekeeping-interval=30s --cgroups-per-qos=false 降低扫描频率;
    • 检查是否有过多的 iptables 规则/内核模块(nf_conntrack 等),按需精简;
    • 对 VM 节点,确保宿主机不超载,开启硬件辅助虚拟化特性。
  3. 监控
    • /var/log/messagesjournalctl -k 做日志告警:watchdog.*soft lockup
    • 通过 node_exporter + Prometheus 监控 node_softlockup_seconds(需自己写脚本解析 dmesg)。
只要出现 softlockup,该节点上所有需要时间片及时响应的组件(kubelet、etcd、容器运行时)都会连带受害,因此务必把内核版本、驱动、系统负载控制在官方建议区间内,才能彻底消除 etcd 因“假死”而频繁重新选主的问题。
这就是 cgroup 锁竞争 → softlockup → etcd/kubelet 被误认为宕机 → 主从频繁切换。
一句话:
64 核以上机器,老内核 + 万级 cgroup,并发抢“一把大锁”,把 CPU 憋死,表现为 softlockup,连带拖垮 etcd 选主。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/963528.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

再次出山!!

如今,时隔多年,又准备开始重新写博客了!!! 今天先看看效果

营口西林瓶灌装机资质齐全,含医疗器械生产许可与行情报价

近年来,西林瓶灌装机市场受原材料价格波动、核心零部件进口成本变化及区域供需关系影响,整体呈现温和上涨趋势。据行业数据显示,2024年第四季度至2025年第三季度期间,西林瓶灌装设备的终端售价平均涨幅约为6.8%。其…

Tita 项目管理软件:驱动互联网企业高效运营与战略落地新引擎

在当今快节奏的互联网行业中,许多企业虽拥有创新产品与业务蓝图,却常因内部管理机制滞后而陷入发展瓶颈。尤其是中型互联网公司,在业务覆盖软件开发、线上营销与平台运营等多板块时,传统的管理模式往往导致目标断层…

完整教程:Java 反射机制核心类详解:Class、Constructor、Method、Field

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Problems

Done QOJ #970 Best Subsequence $ _{6.3}$定义 \(f(\{a\},k)\) 为最小的 x 使得存在一个 \(a\) 的长度为 \(k\) 的子序列首尾相接以后每两个相邻向之和均 \(\le x\)。 给定数组 \(a\) 和 \(q\) 组询问,每组询问给定 …

vue网站禁止右键以及禁止打开控制台,检测到控制台停止运行

App.vue参考:<template> <div id="app" @contextmenu.prevent="handleContextMenu"> <router-view /> </div></template> <script> export default {…

2025年卡盘式自定心坡口机优质厂家权威推荐榜单:切管机/钢板坡口机/倒角机源头厂家精选

在管道工程与金属加工领域,一台高性能的卡盘式自定心坡口机已成为提升焊接质量与施工效率的关键装备。 本文将基于技术实力、生产能力、产品质量、市场表现及服务体系等多维度核心指标,为您呈现2025年卡盘式自定心坡…

AI元人文:从被动执行到主动探索——基于三值张力的文明演进新范式

AI元人文:从被动执行到主动探索——基于三值张力的文明演进新范式 岐金兰 探索“Ai元人文构想”理论体系 2025年11月12日 摘要: AI元人文理论实现了从"价值对齐"到"价值权衡"的范式革命,通过价…

Java 获取 Excel 中工作表的名称 - 指南

Java 获取 Excel 中工作表的名称 - 指南2025-11-12 15:50 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block …

2025年现代风格卫生间隔断生产厂家权威推荐榜单:易清洁卫生间隔断/欧式卫生间隔断/养老院卫生间隔断源头厂家精选

在公共卫生空间设计日益注重功能与美观并重的今天,现代风格的卫生间隔断已成为商业空间、办公场所和公共建筑的重要配置。 根据建筑装饰行业数据显示,2024年中国公共卫生间隔断市场规模达到87亿元,年增长率稳定在12…

locust-WebSocket压测

连接WS的库有的是支持异步IO的,项目中我们推荐这样的库,但是压测时还是要选择同步的库。 异步 安装 pip install websockets代码示例 import asyncio import websockets import json import randomasync def mytest(…

11.11 CSP-S 模拟赛 T3. square

思路 太猎奇 考虑我们应该会 \(\mathcal{O} (\textrm{障碍物数}^2)\) 的做一次问题 但是这类问题其实还有一种 \(\mathcal{O} (\textrm{面积})\) 的做法 具体的, 令 \(f_{i, j}\) 表示 \((i, j)\) 这个点作为右下角时的…

2025年排渣阀订制厂家权威推荐榜单:陶瓷阀门/搪瓷阀门/铸铁阀门源头厂家精选

在电力、矿山、冶金等工业领域,排渣阀作为输送磨损性、腐蚀性介质的关键设备,其性能直接影响整个生产系统的稳定性和运营成本。 本文将基于企业实力、技术能力、产品质量、市场表现及服务体系等多维度核心指标,为您…

locust常用类和方法解析

from locust import HttpUser, task, between# 相当于模拟一个用户 class WebUser(HttpUser):# 服务器的地址host = http://localhost:8000# 下一个任务执行之前等待的时间,用于模式用户的思考时间wait_time = betwee…

locust高级特性详解

事件系统深度应用 全局事件监听 Locust的事件系统就像是一个"消息广播站",可以在特定时机执行自定义逻辑:@events.test_start.add_listener @events.test_stop.add_listener @events.user_error.add_liste…

Aoao Round 2 比赛总结

分数: \(100 + 25 + 20 + 0 = 145\) 好一个神秘 seq 赛。 T1 不难发现,一个符合要求的序列需要是连续的,且其中比 \(b\) 大的数和比 \(b\) 小的数数量相等。 因此,我们可以以 \(b\) 为起点,分别向两侧扫描,把比 …

基于遗传算法的PID控制器参数整定方法详解

基于遗传算法的PID控制器参数整定方法详解一、算法原理与核心流程 1. 遗传算法优化框架2. 关键参数编码染色体结构:采用实数编码直接表示Kp、Ki、Kd参数取值范围: Kp ∈ [0.1, 100], Ki ∈ [0, 50], Kd ∈ [0, 20] …

QT项目复盘:如何在有限资源下把桌面端做成‘高端应用’?

QT项目复盘:如何在有限资源下把桌面端做成‘高端应用’?项目背景:资源困境与“高端”诉求的矛盾 兰亭妙微曾接手某工业数据分析桌面应用开发,核心诉求是“高端化”——既要满足工程师对数据处理的高性能需求,又要…

11.12 联考总结

11.10 联考总结 前三题都很简单,但我二三题都调了较长的时间,很不好。 留给T4的时间不是很多。发现可以分解质因数,转化为网格图上不选相邻格的计数。理论复杂度是 \(O(\sqrt{N}\log_2N\log_3N2^{\log_3N})\) 似乎只…

揭开时序数据库的秘密:为何它是数据存储的未来?

在万物互联的时代,数据正以指数级速度增长。从智能工厂的传感器到金融市场的实时交易,从能源网络的监控到车联网的轨迹追踪,这些场景产生的数据都有一个共同特征——时间戳驱动。传统关系型数据库在处理这类高频、海…