线上 Linux 环境 MySQL 磁盘 IO 高负载深度排查与性能优化实战

目录

一、线上告警

二、问题诊断

1. 系统层面排查

2. 数据库层面分析

三、参数调优

1. sync_binlog 参数优化

2. innodb_flush_log_at_trx_commit 参数调整

四、其他优化建议

1. 日志文件位置调整

2. 生产环境核心参数配置模板

3. 突发 IO 高负载应急响应方案

五、风险提示

六、总结


一、线上告警

        某一天,生产环境监控系统突然报警:MySQL 磁盘 IOPS 持续超过 15000,平均响应时间突破 500ms,慢查询数量大量增加。登录数据库服务器发现:

  • 磁盘利用率长期维持在 98% 以上
  • iostat -x 1显示%util持续 100%
  • MySQL 进程 CPU 使用率达 90%,但大部分时间处于iowait状态

二、问题诊断

1. 系统层面排查

# 查看系统整体IO情况
$ iostat -x 1 10
Linux 5.4.0-150-generic (mysql-prod-01)  03/22/2025  _x86_64_  (32 CPU)avg-cpu:  %user   %nice %system %iowait  %steal   %idle7.2    0.00    4.5    12.3     0.0    76.0Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.0      0.0     0.0  14828.0      0.0  245440.0     33.1      7.5     0.5     0.0     0.5    0.0  99.8
sdb               0.0   4567.0   230.0   2800.0   18400.0  224000.0    152.8     12.5     4.1     2.8     4.2    0.3  99.9# 监控MySQL进程IO情况
$ pidstat -d 1
Linux 5.4.0-150-generic (mysql-prod-01)  03/22/2025  _x86_64_  (32 CPU)15:30:01      UID       PID   kB_rd/s   kB_wr/s kB_ccwr/s  Command
15:30:02        0     12345      0.00  245760.00      0.00  mysqld# 分析IO请求分布
$ iotop -o
Total DISK READ :       0.00 B/s | Total DISK WRITE : 240.00 M/s
Actual DISK READ:       0.00 B/s | Actual DISK WRITE: 240.00 M/sTID  PRIO  USER     DISK READ  DISK WRITE  SWAPIN     IO>    COMMAND
12345 be/4  mysql       0.00 B/s 240.00 M/s  0.00 % 99.99 % mysqld --defaults-file=/etc/mysql/my.cnf

通过上述命令发现:

  • MySQL 进程(PID 12345)占用了 92% 的磁盘写 IO
  • 大部分 IO 集中在/var/lib/mysql/ib_logfile0/var/lib/mysql/mysql-bin.000001文件

2. 数据库层面分析

-- 查看InnoDB日志等待情况
mysql> SHOW ENGINE INNODB STATUS\G
*************************** 1. row ***************************Type: InnoDBName: 
Status: 
=====================================
2025-03-22 15:35:23 0x7f8a1c000700 INNODB MONITOR OUTPUT
=====================================
[...]
--------
FILE I/O
--------
I/O thread 0 state: waiting for completed aio requests (insert buffer thread)
I/O thread 1 state: waiting for completed aio requests (log thread)
Pending normal aio reads: [0, 0, 0, 0] , aio writes: [0, 0, 0, 0] ,ibuf aio reads: 0, log i/o's: 0, sync i/o's: 0
Pending flushes (fsync) log: 0; buffer pool: 0
288334 OS file reads, 1234567 OS file writes, 876543 OS fsyncs
0.00 reads/s, 0 avg bytes/read, 245.00 writes/s, 120.00 fsyncs/s
[...]-- 分析慢查询日志
$ pt-query-digest /var/log/mysql/slow.log > slow_query_report.txt

关键发现:

  • InnoDB 日志等待事件占比达 68%
  • 大量简单 INSERT 语句执行时间超过 200ms
  • binlog 写入等待成为性能瓶颈

三、参数调优

1. sync_binlog 参数优化

原配置

mysql> SHOW VARIABLES LIKE '%sync_binlog%';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| sync_binlog   | 1     |
+---------------+-------+
1 row in set (0.00 sec)

    sync_binlog=1 意味着每次事务提交都会强制将 binlog 写入磁盘,这是导致高 IO 的主要原因。在高并发写入场景下,这种配置会严重影响性能。

优化措施

-- 临时调整(立即生效)
mysql> SET GLOBAL sync_binlog=1000;
Query OK, 0 rows affected (0.00 sec)-- 验证修改结果
mysql> SHOW VARIABLES LIKE '%sync_binlog%';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| sync_binlog   | 1000  |
+---------------+-------+
1 row in set (0.00 sec)-- 持久化配置(修改my.cnf)
$ sudo vi /etc/mysql/my.cnf
[mysqld]
sync_binlog=1000-- 重启MySQL服务使配置永久生效
$ sudo systemctl restart mysql

调整后效果:

  • 磁盘 IOPS 从 15000 降至 8000
  • 写入事务平均响应时间从 520ms 降至 85ms

2. innodb_flush_log_at_trx_commit 参数调整

原配置

mysql> SHOW VARIABLES LIKE '%innodb_flush_log%';
+--------------------------------+-------+
| Variable_name                  | Value |
+--------------------------------+-------+
| innodb_flush_log_at_trx_commit | 1     |
+--------------------------------+-------+
1 row in set (0.00 sec)

    innodb_flush_log_at_trx_commit=1 表示每次事务提交都要将日志写入磁盘,这进一步加重了 IO 负担。

优化措施

-- 临时调整
mysql> SET GLOBAL innodb_flush_log_at_trx_commit=2;
Query OK, 0 rows affected (0.00 sec)-- 验证修改结果
mysql> SHOW VARIABLES LIKE '%innodb_flush_log%';
+--------------------------------+-------+
| Variable_name                  | Value |
+--------------------------------+-------+
| innodb_flush_log_at_timeout    | 1     |
| innodb_flush_log_at_trx_commit | 2     |
+--------------------------------+-------+
2 rows in set (0.00 sec)-- 持久化配置
$ sudo vi /etc/mysql/my.cnf
[mysqld]
innodb_flush_log_at_trx_commit=2-- 重启MySQL服务
$ sudo systemctl restart mysql

调整后效果:

  • 磁盘 IOPS 进一步降至 5500
  • 写入吞吐量提升 42%

四、其他优化建议

1. 日志文件位置调整

将 InnoDB 日志文件和 binlog 文件移动到专用 SSD 磁盘:

# 创建新的日志目录
$ sudo mkdir -p /data/mysql/logs /data/mysql/binlog
$ sudo chown -R mysql:mysql /data/mysql# 修改my.cnf
$ sudo vi /etc/mysql/my.cnf
[mysqld]
innodb_log_file_size = 512M
innodb_log_files_in_group = 2
innodb_log_group_home_dir = /data/mysql/logs
log-bin = /data/mysql/binlog/mysql-bin# 停止MySQL服务
$ sudo systemctl stop mysql# 复制现有日志文件
$ sudo cp -a /var/lib/mysql/ib_logfile* /data/mysql/logs/
$ sudo cp -a /var/lib/mysql/mysql-bin.* /data/mysql/binlog/# 修改文件权限
$ sudo chown -R mysql:mysql /data/mysql/logs
$ sudo chown -R mysql:mysql /data/mysql/binlog# 启动MySQL服务
$ sudo systemctl start mysql# 验证日志文件位置
$ sudo lsof -p $(pgrep mysqld) | grep -E 'ib_logfile|mysql-bin'
mysqld  12345  mysql  mem       REG       8,17  536870912  123456789 /data/mysql/logs/ib_logfile0
mysqld  12345  mysql  mem       REG       8,17  536870912  123456790 /data/mysql/logs/ib_logfile1
mysqld  12345  mysql    4u      REG       8,17      12345  123456791 /data/mysql/binlog/mysql-bin.000001

2. 生产环境核心参数配置模板

[mysqld]
# 事务日志同步策略
sync_binlog = 1000                # 每1000次提交刷盘(平衡性能与可靠性)
innodb_flush_log_at_trx_commit = 2 # 每秒刷盘一次(减少redo日志IO)# 内存与日志配置
innodb_buffer_pool_size = 8G      # 缓冲池大小(建议为物理内存50-70%)
innodb_log_file_size = 512M       # 单个日志文件大小(根据写入量调整)
innodb_log_files_in_group = 2     # 日志文件数量
innodb_io_capacity = 2000         # IO能力上限(SSD建议2000-5000)
innodb_write_io_threads = 16      # 异步写线程数
innodb_read_io_threads = 16       # 异步读线程数

3. 突发 IO 高负载应急响应方案

-- 突发IO高负载时临时降低同步频率
SET GLOBAL sync_binlog = 10000;
SET GLOBAL innodb_flush_log_at_trx_commit = 0;-- 查看当前线程状态
SHOW FULL PROCESSLIST;-- 终止长时间运行的查询
KILL 12345;

五、风险提示

  1. sync_binlog=1000意味着可能丢失最多 1000 个事务的 binlog 数据
  2. innodb_flush_log_at_trx_commit=2可能导致系统崩溃时丢失 1 秒内的事务
  3. 建议在实施前进行压测验证,确保业务可接受数据丢失风险

六、总结

        MySQL 磁盘 IO 高负载是生产环境常见问题,通过合理调整sync_binloginnodb_flush_log_at_trx_commit参数,结合架构优化措施,可以显著提升数据库性能。本次优化实践证明:

  • 合理的参数调优可带来 60% 以上的 IO 性能提升
  • 批量操作优化能有效减少日志写入次数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/906589.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【git进阶】git rebase(变基)

文章目录 合并分支提交信息修改合并提交记录时间问题1时间问题2时间问题3git rebase有很多用武之地,我一一道来 合并分支 当多人协作同一个分支时,在提交我们自己版本之前,我们会先用git pull获取远端最新的版本。但是 git pull = git fetch + git mergegit merge是一个非…

上位机知识篇---keil IDE操作

文章目录 前言文件操作按键新建打开保存保存所有编辑操作按键撤销恢复复制粘贴剪切全选查找书签操作按键添加书签跳转到上一个书签跳转到下一个书签清空所有书签编译操作按键编译当前文件构建目标文件重新构建调试操作按键进入调试模式复位全速运行停止运行单步调试逐行调试跳出…

代码随想录算法训练营 Day49 图论Ⅰ 深度优先与广度优先

图论 基础 图的概念 图的概念 概念清单有向图 (a)无向图 (b)有向/无向如图 a 所示每条边有指向如图 b 所示每条边没有箭头指向权值每条边的权值每条边的权值度-有几条边连到该节点 (eg V 2 V_2 V2​ 度为 3)入度/出度出度:从该节点出发的边个数入度:…

Windows在PowerShell或CMD运行 curl 命令报错 解决办法 (zx)

解决 zx 8.x 不稳定的问题 在 Windows 上使用 zx 8.x 时可能会遇到不稳定的问题,建议降级到 7.x 版本。可以通过以下命令进行降级: pnpm remove zx pnpm add zx7 -D解决 PowerShell 不识别 curl 参数的问题 在 Windows 上,PowerShell 默认将…

WPF···

设置启动页 默认最后一个窗口关闭,程序退出,可以设置 修改窗体的icon图标 修改项目exe图标 双击项目名会看到代码 其他 在A窗体点击按钮打开B窗体,在B窗体设置WindowStartupLocation=“CenterOwner” 在A窗体的代码设置 B.Owner = this; B.Show(); B窗体生成在A窗体中间…

【IP101】图像修复技术精解:从传统插值到深度生成修复的算法演进

图像修复技术详解 🎨 图像修复就像是数字世界的"修复匠"!通过各种"修复技术",我们可以让受损的图像重获新生,就像修复匠修复破损的艺术品一样。让我们一起来探索这个神奇的图像"修复工作室"吧&…

Qt enabled + geometry 属性(2)

文章目录 enabled属性可用与禁用的概念API接口代码演示 阐述说明1. 先简单描述下要如何演示出上面两个接口的效果(思路)2. 事先规范按钮对象的命名3. 定义两个按钮对象的槽函数 动图演示效果4. widget.cpp geometry属性预备知识API接口上下左右移动 ta…

Linux下 使用 SSH 完成 Git 绑定 GitHub

文章目录 1、检查 SSH2、生成 SSH key3、添加 SSH key4、验证绑定是否成功 1、检查 SSH Git Bash 中输入ssh命令,查看本机是否安装 SSH: 2、生成 SSH key (1)输入 ssh-keygen -t rsa 命令,表示我们指定 RSA 算法生…

ubuntu18.04通过cuda_11.3_xxx.run安装失败,电脑黑屏解决办法

项目场景: ubuntu18.04跑DG-SLAM相关代码,安装lietorch包报错,需要用到GPU。 问题描述 跑代码需要cuda11.3,系统里面有另外一个版本,运行cuda_11.3_xxx.run,同时也选择了driver,安装成功后&am…

基于Qwen1.5-0.5B指令监督微调数据集的模型训练

1、安装 LLaMA Factory 输出:检查LLaMA Factory版本&#xff0c;日志或截图。 2、更新数据集 输出:样本数据集(zh.test.csv)处理后形成微调训练格式的json文件&#xff0c;部分数据或截图。 <数据集> dataset_info.json文件指定 &#xff08;1&#xff09;格式转换&…

JVM梳理(逻辑清晰)

JVM总览 JVM 是什么&#xff0c;作用是什么 JVM&#xff08;Java Virtual Machine&#xff0c;Java 虚拟机&#xff09;是一个可以运行 Java 字节码的虚拟计算机 核心作用&#xff1a;实现跨平台&#xff08;“一次编写&#xff0c;到处运行”&#xff09;&#xff0c;JVM 是…

【typenum】 9 与常量泛型桥接(generic_const_mappings.rs)

一、源码 该代码提供了常量结构体与库类型的转换。 // THIS IS GENERATED CODE //! Module with some const-generics-friendly definitions, to help bridge the gap //! between those and typenum types. //! //! - It requires the const-generics crate feature to be…

SOPHGO算能科技BM1688内存使用与编解码开发指南

1. BM1688内存分配接口详解 1.1 设备内存分配接口区别 BM1688提供了三个主要的设备内存分配接口,它们的主要区别如下: // 基本设备内存分配接口 void* bm_malloc_device_byte(bm_handle_t handle, unsigned int size);// 指定heap区域的设备内存分配 void*</

解决软件连接RabbitMQ突发System.IO.IOException: 无法从传输连接中读取数据: 远程主机强迫关闭了一个现有的连接异常

一、问题描述 系统再运行时&#xff0c;突然出现 System.Exception: [RabbitMQ.Send Error] RabbitMQ.Client.Exceptions.AlreadyClosedException: Already closed: The AMQP operation was interrupted: AMQP close-reason, initiated by Library, code541, text“Unexpected…

STM32单片机GUI系统1 GUI基本内容

目录 一、GUI简介 1、emWin 2、LVGL (Light and Versatile Graphics Library) 3、TouchGFX 4、Qt for Embedded 5、特性对比总结 二、LVGL移植要求 三、优化LVGL运行效果方法 四、LVGL系统文件 一、GUI简介 在嵌入式系统中&#xff0c;emWin、LVGL、TouchGFX 和 Qt 是…

基于vue框架的动漫论坛g2392(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。

系统程序文件列表 项目功能&#xff1a;用户 开题报告内容 基于Vue框架的动漫论坛开题报告 一、研究背景与意义 &#xff08;一&#xff09;研究背景 随着互联网技术的飞速发展&#xff0c;动漫文化在全球范围内迅速传播&#xff0c;成为连接各国青年的重要文化纽带。动漫…

网络安全管理之钓鱼演练应急预案

文章目录 网络安全管理之钓鱼演练应急预案前言一、背景和目的1.1背景1.2目的 二、整体思路三、演练所需四、风险评估和演练目标4.1 风险评估4.2 演练目标 五、演练计划5.1 演练时间和地点5.2 参与人员5.3 演练场景5.4 演练流程5.5 演练评估 六、 应急响应流程七、钓鱼邮件防范7…

Hooks实现原理与自定义Hooks

React Hooks 是 React 16.8 引入的一种机制&#xff0c;允许在函数组件中使用状态&#xff08;state&#xff09;、副作用&#xff08;effect&#xff09;等功能&#xff0c;而无需编写 class 组件。其核心原理是通过闭包和链表结构&#xff0c;在 React 的 Fiber 架构中管理组…

单片机设计_四轴飞行器(STM32)

四轴飞行器&#xff08;STM32&#xff09; 想要更多项目私wo!!! 一、系统简介 四轴飞行器是一种通过四个旋翼产生的升力实现飞行的无人机&#xff0c;其核心控制原理基于欧拉角动力学模型。四轴飞行器通过改变四个电机的转速来实现六自由度控制&#xff08;前后、左右、上下…

服务器的基础知识

什么是服务器 配置牛、运行稳、价格感人的高级计算机&#xff0c;家用电脑不能比拟的。 服务器的组成&#xff1a;电源、raid卡、网卡、内存、cpu、主板、风扇、硬盘。 服务器的分类 按计算能力分类 超级计算机 小型机AIX x86服务器&#xff08;服务器cpu架构&#xff09; …