Offload flow APR GC

news/2025/11/14 11:45:35/文章来源:https://www.cnblogs.com/tiantao36/p/19221346

Offload flow APR GC

下面我给你一个 精确、可落地、可以快速判断

到底是:
(1)网卡 Offload(GRO/LRO/TSO/RXCSUM/TXCSUM)问题?
(2)Flow 流量过大(队列/CPU软中断高)?
(3)ARP GC 或邻居缓存问题?

并且告诉你 如何判断、如何复现、如何定位、如何排除

你贴的命令:

ethtool --offload flannel.1 rx off tx off
ethtool --offload cni0 rx off tx off
ethtool --offload eno3 rx off tx off

这是企图关闭 offload 来验证,但这样做 很容易误判,因为 Linux 网络的瓶颈可能来自多层。

我下面按你的需求给你一个 精准判断流程


✅ 一、判断是否“网卡 Offload”导致网络问题

Offload 可能导致的问题:

  • GRO/LRO 合并导致延迟(尤其 VXLAN / flannel)

  • RX/TX checksum offload 兼容性问题

  • TSO 大包导致 CPU softirq 增高

  • 某些虚拟网卡(flannel.1 / cni0)反而不能 Offload

要判断是不是 Offload 的锅,看这几个信号:


① dmesg / kernel log 出现 checksum / GRO / LRO 错误

执行:

dmesg -T | egrep -i "checksum|gro|lro|rx error|tx error|skb"

如果 Offload 出问题,会看到:

  • skb checksum error

  • hw csum failure

  • rx csum incorrect

  • netif_receive_skb_general: drop

  • gro: packet malformed

出现这些就说明 Offload 的兼容性有问题 → 就该关


② ethtool -S 查看网卡硬件错误

ethtool -S eno3 | egrep "err|drop|fail"

关注:

  • rx_errors

  • tx_errors

  • rx_crc_errors

  • rx_no_buffer_count

  • rx_missed_errors

  • rx_length_errors

  • rx_over_errors

如果 Offload 出问题,错误计数会持续增加


③ perf top 看 softirq 是否异常集中在 GRO/TSO

perf top

如果看到:

net_rx_action
napi_gro_receive
tcp_tso_segs
skb_gro_receive

这些异常升高 → GRO/TSO 过大包合并导致 CPU 卡死

尤其典型于:flannel + 高 QPS + 大包。


④ 用 ethtool 关闭后问题消失 → 基本确认是 Offload

按你贴的命令:

ethtool --offload eno3 rx off tx off
ethtool --offload flannel.1 rx off tx off
ethtool --offload cni0 rx off tx off

如果关掉后:

  • ping 延迟下降

  • curl/业务延迟下降

  • softirq 下降

  • rx_errors 不再递增

确认是 Offload 的锅


❗如果关闭 Offload 后仍然卡 → 问题不在 Offload

就进入下两个判断:Flow 还是 ARP GC。


✅ 二、判断是否 Flow(流量 / QPS / CPU 软中断)问题

判断 Flow 的方法比 Offload 更直接:


① softirq(ksoftirqd)是否满 CPU

top -H -p `pidof ksoftirqd/0`

或:

mpstat -P ALL 1

如果看到:

  • 某个 CPU 的 %soft >= 50%

  • ksoftirqd 占用很高

Flow 过大,网卡队列打满


② /proc/net/softnet_stat 是否丢包

cat /proc/net/softnet_stat

每一行对应 CPU,格式:

cpu0: xxx yyy zzz ...

关键字段:

  • 第 1 个字段:flow 队列满了(netdev budget exhausted)

  • 第 2 个字段:RX dropped(硬件没来得及处理)

  • 第 3 个字段:软中断丢包

如果某 CPU 某项累计增长:

流量瓶颈 / RPS/RFS 不足 / bind irq imbalance


③ 观察 RX/TX ring buffer 是否满(Flow 畸高)

ethtool -g eno3

如果 ring buffer 很小而流量很大 → 很容易丢包。


④ sar 看网络收发速率逼近网卡上限

sar -n DEV 1

如果接近:

  • 1Gbps → 950Mbps 上下

  • 10Gbps → 9.5Gbps 上下

则 Flow 过载。


⚠ 结论:

如果 softirq 高、softnet_stat 增长、sar 显示流量接近带宽 → 是 Flow 过载,不是 Offload 或 ARP。


✅ 三、判断是否 ARP GC(邻居缓存)问题

这个问题常发生在 大量 Pod 的 flannel/cni0 网段中

典型表现:

  • ping flannel 网段偶发丢包

  • curl 某服务间歇性超时

  • dmesg 出现:

    neighbour table overflow
    ARP cache full
    

① 查看 neighbor 缓存是否溢出

ip -s neigh

如果看到:

  • FAILED 很多

  • INCOMPLETE 很多

→ ARP 缓存不足。


② 查看是否出现 overflow 错误

dmesg | grep -i "neigh\|arp"

出现:

neighbour table overflow

→ 确定是 ARP GC。


③ 查看 neigh table 大小是否被打满

sysctl -a | grep neigh | grep gc

一般参数:

net.ipv4.neigh.default.gc_thresh1
net.ipv4.neigh.default.gc_thresh2
net.ipv4.neigh.default.gc_thresh3

如果阈值偏小(例如 flannel 网段 1000+ Pod)→ neighbor 缓存经常溢出。


📌 如何区分 Flow vs Offload vs ARP?

现象Offload 问题Flow 过载ARP GC
ping 丢包 ✔ 有可能 ✔ 有可能 ✔ 经常
curl 慢 ✔(大包合并问题) ✔(软中断高) ✔(CACHE MISS)
rx_errors 增长 ✔ 多 ✖ 少
softirq 飙高 ✔(GRO爆) ✔(队列满)
softnet_stat 增长
dmesg 出现 checksum error
dmesg 出现 neighbour overflow
关闭 offload 后改善 ✔ 必然 ✖ 无效

你只要按这个表看,就能精准判断根因。


🟦 最终如何快速判断?

执行这一套:

1. dmesg | egrep "checksum|gro|lro"
2. ethtool -S eno3 | egrep "err|drop"
3. cat /proc/net/softnet_stat
4. top -H -p $(pidof ksoftirqd/*)
5. ip -s neigh
6. dmesg | grep -i neighbor
7. sar -n DEV 1

然后用上面表格对照。


📣 如果你愿意,我可以帮你做 自动诊断脚本

bash diagnose_network.sh

自动:

  • 判断是否 Offload 导致

  • 是否 Flow 过载

  • 是否 ARP GC 溢出

  • 是否软中断瓶颈

  • 是否 ring buffer 太小

并输出清晰诊断结果。

你需要这个吗?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/965215.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RAG项目实战:基于图文PDF的多模态问答RAG项目(一)调研阶段

参考文章: [1] 来自工业界的知识库 RAG 服务(二),RagFlow 源码全流程深度解析 - 易迟的博客 | Bryan Blog [2] 赢得企业RAG挑战赛的秘诀 —— 冠军方案剖析与感悟 [3] https://abdullin.com/ilya/how-to-build-best-…

2025年评价高的压滤机厂家推荐及采购参考

2025年评价高的压滤机厂家推荐及采购参考行业背景与市场趋势随着环保政策的日益严格和工业废水处理需求的持续增长,中国压滤机行业迎来了快速发展期。据中国环保产业协会最新数据显示,2024年中国压滤机市场规模已达到…

2025年靠谱的麦稻草浆挤浆机TOP实力厂家推荐榜

2025年靠谱的麦稻草浆挤浆机TOP实力厂家推荐榜行业背景与市场趋势随着全球环保意识的提升和循环经济政策的推进,麦稻草浆作为可再生资源在造纸、生物质能源等领域的应用日益广泛。根据中国造纸协会最新数据,2024年我…

深入解析:Flutter鸿蒙开发

深入解析:Flutter鸿蒙开发pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", …

2025新加坡金融科技节:看AI驱动的金融转型策略与“中国方案”

11月12日至14日,全球金融科技盛会——新加坡金融科技节(Singapore Fintech Festival)在新加坡博览中心举行。作为全球最具影响力的行业盛会之一,本次活动以“未来十年金融的科技蓝图”为主题,吸引了来自全球的科技…

国产化Excel开发组件Spire.XLS教程:Python将列表导出为CSV文件(含一维/二维/字典列表)

对于 Python 开发者而言,将 Python 列表转换为 CSV 格式是高频需求——无论是导出应用数据、生成报表,还是准备分析数据集,都离不开这一操作。Spire.XLS for Python 凭借直观可靠的方法简化了这一过程,无需依赖 Mi…

2025年评价高的连续式台车炉厂家最新推荐权威榜

2025年评价高的连续式台车炉厂家最新推荐权威榜行业背景与市场趋势随着制造业转型升级步伐加快,热处理设备作为工业生产的核心装备之一,其市场需求持续增长。据中国热处理行业协会最新统计数据显示,2024年我国热处理…

【2025-11-13】乡土人情

20:00人生啊,是这样不可预测,没有永恒的痛苦,也没有永恒的幸福。生活像流水一般,有时是那么平展,有时又是那么曲折。——路遥昨晚母亲收到亲戚的消息说我二姑丈走了。我问她要不要回老家一趟送一下最后一程,母亲…

.Net10(2025-11-11正式版)与win7/.Net8兼容性测试

.Net10(2025-11-11正式版)与win7/.Net8兼容性测试。 结论:.Net10 WinForms功能与Win7兼容。 .Net10 SDK 与VS2022兼容。 .Net10/.Net8/.Net6 Runtime互不兼容。

2025 最新杭州办公室出租公司推荐!涵盖生态化服务、定制化空间及增值服务优选指南杭州租办公室/杭州租赁办公室/杭州办公室租赁公司推荐

引言 数字经济浪潮下,企业对办公空间的需求已从单纯物理场所升级为集空间、服务、产业资源于一体的生态载体。然而市场中虚假房源、服务脱节、隐性收费等乱象频发,让企业选址面临诸多困扰。本次榜单依托国际办公空间…

软件测试— 测试分类 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年知名的Lanny阀组比例阀厂家推荐及选购指南

2025年知名的Lanny阀组比例阀厂家推荐及选购指南行业背景与市场趋势随着工业自动化水平的不断提升,流体控制技术在制造业中的应用日益广泛。作为流体控制系统的核心部件,Lanny阀组比例阀的市场需求持续增长。据《202…

2025年知名的游乐设备PC管用户好评厂家排行

2025年知名的游乐设备PC管用户好评厂家排行行业背景与市场趋势随着全球游乐设备市场的持续扩张,中国作为世界最大的游乐设备生产国和消费国之一,行业规模已突破千亿元大关。据中国游乐设备行业协会最新数据显示,202…

2025 最新隔层纸厂家权威推荐榜:玻璃 / 防静电 / PCB / 防潮 / 电路板隔层纸优质企业综合排行

在电子信息、金属加工、珠宝制造等领域高速发展的背景下,隔层纸作为保障产品品质的核心包装材料,市场需求持续扩大,但行业乱象仍存:硫含量超标、规格混乱、售后缺失等问题频发,给采购方带来诸多困扰。本次榜单由国…

2025年湖南正规1688代运营公司权威推荐榜单:1688公司代运营/长沙1688代运营服务/长沙1688代运营源头公司精选

面对1688平台日益激烈的竞争,湖南企业正积极寻求专业代运营服务,以在数字化转型浪潮中抢占先机。 随着2025年1688平台算法升级和流量成本攀升,湖南本地企业正面临“曝光高、转化低”的普遍困境。 专业数据显示,202…

2025年知名的南京应急租发电机厂家最新推荐排行榜

2025年知名的南京应急租发电机厂家最新推荐排行榜行业背景与市场趋势随着中国城市化进程加速和工商业持续发展,电力需求呈现爆发式增长。根据中国电力企业联合会最新数据显示,2024年全国电力缺口预计达到4500万千瓦,…

鸿蒙应用开发之三方库的使用

三方库基本使用 1.如何获取三方库 目前提供了两种途径获取开源三方库:● Gitee三方库资源汇总:https://gitee.com/openharmony-tpc/tpc_resource ● OpenHarmony三方库中心仓:https://ohpm.openharmony.cn2. 常用三…

2025年靠谱的滋润护手霜厂家最新TOP排行榜

2025年靠谱的滋润护手霜厂家最新TOP排行榜 行业背景与市场趋势 随着消费者对护肤需求的精细化,护手霜市场持续增长。据《2024年中国护肤品行业白皮书》显示,护手霜市场规模已达156亿元,年增长率12.3%,其中滋润修…

2025年靠谱的抽屉阻尼隐藏轨最新TOP品牌厂家排行

2025年靠谱的抽屉阻尼隐藏轨最新TOP品牌厂家排行行业背景与市场趋势随着家具制造业向智能化、高端化方向发展,抽屉阻尼隐藏轨作为现代家具的核心五金配件,其市场需求持续增长。据中国五金制品协会2024年数据显示,全…

详细介绍:K8S(十四)—— K8s实战:HPA(Pod水平自动伸缩)完整部署与测试指南

详细介绍:K8S(十四)—— K8s实战:HPA(Pod水平自动伸缩)完整部署与测试指南2025-11-14 11:31 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overfl…