前言
程序跑得慢,但不知道慢在哪。CPU不高、内存够用、磁盘IO也正常,可就是响应慢。这时候需要看系统调用(syscall):程序到底在做什么?是频繁读写文件、网络IO阻塞,还是系统调用本身开销太大?
Linux提供了strace、perf、ftrace等工具,可以追踪系统调用、分析性能瓶颈。这篇文章从实战出发,先讲怎么用工具定位问题,再讲怎么优化。
一、strace基础:追踪系统调用
1.1 基本用法
# 追踪命令的系统调用stracels-l# 追踪已运行进程strace-p<PID># 只追踪特定系统调用strace-etrace=open,read,writels# 统计系统调用次数和时间strace-cls-l1.2 常用选项
# -f 追踪子进程strace-f ./script.sh# -e trace=file 只追踪文件相关strace-etrace=filels# -e trace=network 只追踪网络相关strace-etrace=networkcurlhttp://example.com# -e trace=process 只追踪进程相关strace-etrace=processpsaux# -o 输出到文件strace-o trace.logls# -s 显示完整字符串(默认只显示32字节)strace-s200ls# -tt 显示时间戳strace-ttls# -T 显示系统调用耗时strace-Tls1.3 实战案例:定位文件读取慢
# 追踪文件读取strace-etrace=open,openat,read -Tls-R /large/directory# 输出示例# openat(AT_FDCWD, "/large/directory", O_RDONLY|O_NONBLOCK|O_CLOEXEC|O_DIRECTORY) = 3 <0.000012># openat(3, "file1.txt", O_RDONLY|O_CLOEXEC) = 4 <0.000008># read(4, "content...", 4096) = 4096 <0.000015># read(4, "", 4096) = 0 <0.000003># +++ exited with 0 +++分析要点:
openat返回负数:文件不存在或权限问题read返回0:文件读完read返回负数:读取错误<0.000015>:系统调用耗时,如果某个调用耗时很长,就是瓶颈
1.4 实战案例:定位网络连接慢
# 追踪网络连接strace-etrace=network -Tcurlhttp://slow-api.com# 输出示例# socket(AF_INET, SOCK_STREAM, IPPROTO_TCP) = 3 <0.000010># connect(3, {sa_family=AF_INET, sin_port=htons(80), sin_addr=inet_addr("1.2.3.4")}, 16) = 0 <2.500000># sendto(3, "GET / HTTP/1.1\r\nHost: slow-api.com\r\n\r\n", 45, MSG_NOSIGNAL, NULL, 0) = 45 <0.000020># recvfrom(3, "HTTP/1.1 200 OK\r\n...", 4096, 0, NULL, NULL) = 1024 <3.200000>分析要点:
connect耗时2.5秒:网络连接慢,可能是DNS解析慢或网络延迟recvfrom耗时3.2秒:服务器响应慢- 如果
connect返回-1:连接失败,检查网络或防火墙
二、strace高级用法:过滤和分析
2.1 过滤特定文件或路径
# 只追踪访问特定文件strace-etrace=open,openat -etrace=file -P /etc/passwdls# 追踪访问特定目录strace-etrace=open,openat2>&1|grep"/var/log"2.2 统计系统调用
# 统计系统调用次数和时间strace-cls-R /large/directory# 输出示例# % time seconds usecs/call calls errors syscall# ------ ----------- ----------- --------- --------- ----------------# 45.23 0.123456 123 1000 openat# 30.12 0.082345 82 1000 read# 15.45 0.042123 42 1000 close# 9.20 0.025123 25 1000 fstat分析要点:
% time:该调用占总时间的百分比usecs/call:每次调用平均耗时(微秒)calls:调用次数errors:错误次数
如果openat占用45%时间且调用1000次,说明文件打开太频繁,可能需要批量处理或缓存。
2.3 追踪系统调用参数
# 显示系统调用参数strace-etrace=openat -vls# 输出示例# openat(AT_FDCWD, "/etc/passwd", O_RDONLY|O_CLOEXEC) = 32.4 实战案例:分析Nginx慢请求
# 追踪Nginx worker进程strace-p$(pgrep -f"nginx: worker")-etrace=network,epoll_wait -T# 如果发现epoll_wait耗时很长,说明没有事件,可能是上游服务慢# 如果发现connect/recvfrom耗时很长,说明网络IO慢三、perf性能分析:更深入的性能追踪
3.1 perf基础
strace看系统调用,perf看CPU性能。perf可以采样CPU、追踪函数调用、分析热点。
# 安装perf(CentOS/RHEL)yuminstallperf# 安装perf(Ubuntu/Debian)apt-getinstalllinux-perf# 查看perf版本perf --version3.2 perf top:实时查看CPU热点
# 实时查看CPU占用最高的函数perftop# 只看特定进程perftop-p<PID># 只看特定命令perftop-g -p$(pgrep nginx)输出示例:
Samples: 1M of event 'cpu-clock', Event count (approx.): 25000000000 45.23% nginx [kernel] [k] __d_lookup 12.34% nginx libc-2.31.so [.] __GI___libc_malloc 8.90% nginx nginx [.] ngx_http_core_run_phases分析要点:
[kernel]:内核函数[.]:用户空间函数- 如果内核函数占用高,可能是系统调用开销大或IO等待
3.3 perf record和perf report:记录和分析
# 记录性能数据(默认采样10秒)perf record -g ./your_program# 记录特定进程perf record -g -p<PID># 记录特定时间perf record -gsleep30# 查看报告perf report3.4 perf stat:统计性能事件
# 统计命令的性能事件perfstatls-R /large/directory# 输出示例# Performance counter stats for 'ls -R /large/directory':## 1234.56 msec task-clock # 0.123 CPUs utilized# 1000 context-switches # 0.810 K/sec# 500 cpu-migrations # 0.405 K/sec# 2000 page-faults # 0.001 M/sec# 5000000000 cycles # 4.050 GHz# 2000000000 instructions # 0.40 insn per cycle# 500000000 branches # 405.000 M/sec# 10000000 branch-misses # 2.00% of all branches关键指标:
task-clock:CPU时间context-switches:上下文切换次数,如果很高说明调度频繁page-faults:缺页中断,如果很高说明内存访问模式不好instructions:指令数branch-misses:分支预测失败率,如果>5%可能影响性能
3.5 perf trace:追踪系统调用(类似strace)
# 追踪系统调用perf tracels# 追踪特定进程perf trace -p<PID># 只追踪特定系统调用perf trace -e syscalls:sys_enter_openatls四、实战案例:定位程序慢的原因
4.1 案例1:文件查找慢
现象:find /large -name "*.log"很慢
排查步骤:
# 1. 用strace看系统调用strace-cfind/large -name"*.log"# 发现openat调用10000次,耗时5秒# 2. 用perf看CPU热点perf record -gfind/large -name"*.log"perf report# 发现大部分时间在__d_lookup(目录查找)# 3. 优化方案# - 使用locate数据库(updatedb + locate)# - 限制搜索深度(-maxdepth)# - 使用更快的文件系统索引工具4.2 案例2:网络请求慢
现象:HTTP请求响应慢
排查步骤:
# 1. 用strace追踪网络调用strace-etrace=network -Tcurlhttp://api.example.com# 发现connect耗时2秒,recvfrom耗时3秒# 2. 用perf看网络栈perf record -g -e syscalls:sys_enter_connectcurlhttp://api.example.com perf report# 3. 进一步排查# - DNS解析:time nslookup api.example.com# - 网络延迟:ping api.example.com# - 服务器性能:检查服务器CPU/IO4.3 案例3:程序启动慢
现象:程序启动需要10秒
排查步骤:
# 1. 用strace看启动过程strace-tt -T ./your_program2>&1|head-100# 发现加载了很多动态库,每个库加载耗时0.1秒# 2. 优化方案# - 减少动态库依赖# - 使用静态链接# - 预加载常用库(LD_PRELOAD)五、系统调用优化实践
5.1 减少系统调用次数
问题:频繁的文件操作
# 不好的做法:每次读一个字节foriin{1..1000};doecho$i>>file.txtdone# 好的做法:批量写入echo{1..1000}|tr' ''\n'>>file.txt问题:频繁的网络连接
# 不好的做法:每次请求都新建连接forurlin$urls;docurl$urldone# 好的做法:复用连接(HTTP/1.1 keep-alive或连接池)5.2 使用更高效的系统调用
问题:读取大文件
# read():每次最多读一个页面(4KB)# readahead():预读,减少IO等待# mmap():内存映射,减少拷贝问题:文件查找
# opendir() + readdir():遍历目录# 如果频繁查找,用inotify监控文件变化,维护索引5.3 异步IO:减少阻塞
# 同步IO:read()阻塞直到数据就绪# 异步IO:aio_read(),不阻塞,用回调处理# 网络IO:epoll/kqueue,事件驱动# 文件IO:io_uring(Linux 5.1+),异步文件IO六、跨网络调试:批量追踪系统调用
6.1 场景:多台服务器性能分析
如果需要在多台服务器上分析性能,逐个SSH登录很麻烦。
解决方案:
- 跳板机:所有机器都能连接的中转服务器
- 组网工具:WireGuard、ZeroTier、星空组网等,把机器组成虚拟局域网
用组网工具后,不管机器实际在哪,都可以用虚拟内网IP直接访问。然后用Ansible批量执行strace/perf:
# Ansible批量执行straceansible all -m shell -a"strace -c -p \$(pgrep nginx)"# 或者用脚本批量收集forhostin10.0.0.{1..10};dossh$host"strace -c -p \$(pgrep nginx)">trace_${host}.logdone6.2 场景:分布式系统性能分析
分布式系统涉及多台机器,需要同时追踪多个进程。
方案:
- 用组网工具把机器串起来,统一管理
- 批量执行strace/perf,收集数据
- 汇总分析
# 批量收集perf数据forhostinweb{1..5}db{1..3};dossh$host"perf record -g -p \$(pgrep app)sleep 30"&donewait# 汇总分析forhostinweb{1..5}db{1..3};doscp$host:perf.data perf_${host}.datadoneperf report -i perf_web1.data七、常见问题与注意事项
7.1 strace性能开销
strace会显著影响程序性能(可能慢10-100倍),生产环境谨慎使用。
建议:
- 先用
strace -c统计,看整体情况 - 再用
-e trace=特定调用缩小范围 - 生产环境用
perf采样,开销更小
7.2 权限问题
# strace追踪其他用户进程需要rootsudostrace-p<PID># perf也需要root或调整perf_event_paranoidecho-1|sudotee/proc/sys/kernel/perf_event_paranoid7.3 输出太多怎么办
# 限制输出行数strace-etrace=open2>&1|head-100# 输出到文件strace-o trace.logls# 只追踪错误strace-etrace=open -estatus=failedls7.4 内核函数追踪
# perf可以追踪内核函数perf record -g -e syscalls:sys_enter_openatlsperf report# 需要调试符号# CentOS: debuginfo-install kernel# Ubuntu: apt-get install linux-image-$(uname -r)-dbg八、工具对比与选择
| 工具 | 用途 | 开销 | 适用场景 |
|---|---|---|---|
strace | 追踪系统调用 | 高(10-100倍慢) | 开发调试、问题定位 |
perf | CPU性能分析 | 低(<5%) | 生产环境性能分析 |
ftrace | 内核函数追踪 | 极低 | 内核调试 |
ltrace | 追踪库函数调用 | 高 | 库函数调用分析 |
tcpdump | 网络包捕获 | 中等 | 网络问题排查 |
选择建议:
- 开发环境:用
strace看系统调用 - 生产环境:用
perf采样分析 - 网络问题:用
tcpdump抓包 - 内核问题:用
ftrace追踪
总结
| 问题类型 | 排查工具 | 关键指标 | 优化方向 |
|---|---|---|---|
| 文件IO慢 | strace -e trace=file | openat/read耗时 | 批量操作、缓存、异步IO |
| 网络IO慢 | strace -e trace=network | connect/recvfrom耗时 | 连接复用、异步IO |
| CPU占用高 | perf top | 热点函数 | 算法优化、减少系统调用 |
| 上下文切换多 | perf stat | context-switches | 减少线程数、协程 |
| 缺页中断多 | perf stat | page-faults | 内存预分配、减少内存碎片 |
核心思路:
- 先用
strace -c或perf stat看整体 - 再用
strace -e trace=特定调用或perf top定位热点 - 最后针对性优化(减少调用次数、使用更高效调用、异步IO)
注意事项:
strace开销大,生产环境慎用perf需要root权限或调整内核参数- 跨网络调试用组网工具统一管理更方便
公众号:北平的秋葵