深入解析:Linux服务器崩溃急救攻略

news/2025/12/3 16:34:00/文章来源:https://www.cnblogs.com/ljbguanli/p/19302969

深入解析:Linux服务器崩溃急救攻略

这是一份非常实用的 Linux 服务器崩溃急救指南。当服务器出现无响应、无法通过 SSH 登录、卡死等情况时,请按照以下步骤进行排查和恢复。

核心原则:保持冷静,先诊断,后操作


第一阶段:尝试连接与初步诊断

当发现服务器“崩溃”时,第一步是确认状态,而不是立即重启。

  1. 尝试 SSH 登录
    尝试从另一台机器 SSH 到服务器。如果成功,说明网络和 SSH 服务正常,问题可能出在特定应用或资源耗尽上。

  2. 使用“魔法键”SysRq(如果配置了)
    这是最强大的一招,可以在内核完全卡死时获取信息或安全重启。前提是内核配置了

  3. SysRq(System Request)是一个内建在 Linux 内核中的“后门”命令序列,它允许你在系统完全无响应(比如内核恐慌、死锁、负载极高)时,绕过正常系统流程,直接与内核对话,执行一些底层紧急操作。

  4. 如何启用和配置 SysRq?

  5. 检查是否启用

    cat /proc/sys/kernel/sysrq
    • 0 - 完全禁用

    • 1 - 完全启用

    • 其他数字是位掩码,代表启用部分功能(例如 176 或 438 是常见值,表示启用了大部分安全操作)。

  6. 临时启用(推荐用于急救)

    echo 1 > /proc/sys/kernel/sysrq
  7. 永久启用
    编辑 /etc/sysctl.conf 文件,添加:

    kernel.sysrq = 1

    然后执行 sysctl -p 使其生效。

  8. CONFIG_MAGIC_SYSRQ(默认通常开启)

    • 操作方式:依次按下 Alt + SysRq(在大多数键盘上,SysRq 就是 Print Screen 键),然后单独按下另一个键。

    • 常用急救序列(REISUB):这是一个“安全重启”的序列,能让内核以相对有序的方式重启,比直接断电要安全。

      • r: 将键盘从 X Server 等程序夺回,交给内核控制。

      • e: 向所有进程发送 SIGTERM 信号,要求它们优雅终止。

      • i: 向所有进程发送 SIGKILL 信号,强制终止它们。

      • s: 同步所有已挂载的文件系统,将缓存数据写入磁盘。

      • u: 重新以只读方式挂载所有文件系统。

      • b: 立即重启系统。

    • 如何操作:如果服务器有 KVM(物理控制台),依次按下:Alt + SysRq(按住) -> r(松开) -> e(松开) -> i(松开) -> s(松开) -> u(松开) -> b(松开)。

    • 启用 SysRq(如果默认未开启):

      echo "1" > /proc/sys/kernel/sysrq
      # 或永久生效,编辑 /etc/sysctl.conf,添加:kernel.sysrq = 1
  9. 通过控制台连接(适用于云服务器)
    如果你是阿里云、AWS、腾讯云等云服务用户,立即使用云平台提供的 VNC 或 Serial Console 功能。这相当于虚拟机的显示器,是诊断卡死问题的关键。


第二阶段:连接成功后的诊断命令

如果能通过 SSH 或 Console 登录,立即运行以下命令来定位问题根源。

  1. 检查系统负载和运行时间

    uptime
    • 看 load average,如果持续远高于 CPU 核心数,说明负载过高。

  2. 检查内存和交换空间

    free -h
    • 如果 free 内存几乎为 0,且 swap 被大量使用,说明内存不足,系统因频繁换页而卡死。

  3. 检查磁盘空间

    df -h
    • 重点检查根分区 / 和 /var/home 等关键分区。如果使用率 100%,会导致服务崩溃。清理大文件:

      # 查找大于100M的文件
      find / -type f -size +100M -exec ls -lh {} \;
      # 检查/var/log下的日志文件
      du -sh /var/log/*
  4. 检查磁盘 I/O

    iotop
    • 如果没有 iotop,用 iostat -x 1。如果 %util 持续接近 100%,await 很高,说明磁盘 I/O 是瓶颈。

  5. 检查 CPU 和进程

    top
    # 或更强大的
    htop
    • 查看 %Cpu(s) 行:us(用户)高是应用问题,sy(系统)高是内核或系统调用频繁,wa(I/O 等待)高是磁盘瓶颈。

    • 查看 %MEM 和 %CPU 列,找出消耗资源最多的进程。

  6. 检查内核日志

    dmesg -T | tail -50
    • 这是关键! 内核日志通常会记录崩溃前最后的信息。查找 OopsKernel panicOut of memory(OOM)、CPU#0segfault 等关键字。

    • OOM 表示内存耗尽,内核杀死了进程。

    • Kernel panic 是严重的内核错误。

  7. 检查系统日志

    journalctl -xe --no-pager | tail -100
    # 或者对于使用 syslog 的系统
    tail -100 /var/log/messages
    tail -100 /var/log/syslog


第三阶段:针对性恢复操作

根据诊断结果采取行动。

  1. 内存耗尽 (OOM)

    • 找到被 killed 的进程。

    • 终止消耗内存过多的进程(如果它还在):kill -9 <PID>

    • 考虑增加交换空间或物理内存。

    • 调整应用的内存配置。

  2. 磁盘空间满

    • 快速清理

      • 清理日志:journalctl --vacuum-size=500M 或删除 /var/log 下旧的日志文件。

      • 清理包缓存:apt-get clean 或 yum clean all

      • 查找并删除核心转储文件 (core.*) 或大型临时文件。

    • 最直接的方法:删除或移动不需要的大文件。

  3. CPU 或 I/O 瓶颈

    • 使用 killpkill 或 killall 终止失控的进程。

    • 使用 renice 调整进程优先级。

    • 如果是业务高峰,可能需要扩容或优化应用。

  4. 内核崩溃 (Kernel Panic)

    • 记录 dmesg 中的错误信息。

    • 通常只能重启。重启后分析日志,查找原因(驱动bug、硬件故障、内核bug)。

  5. 个别服务无响应

    • 尝试重启该服务:systemctl restart <service_name>

    • 查看该服务的日志:journalctl -u <service_name>


第四阶段:最后的手段——重启

如果以上所有方法都无效,系统完全无响应,那么只能重启。

  1. 发送关机信号

    shutdown -r now

    或者

    reboot
  2. 强制重启(有风险!)

    • 如果 shutdown 命令也卡住,只能通过硬件方式:

      • 物理服务器:按住电源键 5-10 秒强制关机,再开机。

      • 云服务器:在云控制台上执行“强制重启”或“硬重启”。

警告:强制重启可能导致文件系统损坏,重启后可能需要进行 fsck 检查。


第五阶段:事后分析

服务器恢复后,工作并未结束。必须找出根本原因,防止再次发生。

  1. 分析日志

    • 仔细查看崩溃时间点前后的 /var/log/messages/var/log/syslogdmesg 和 journalctl 日志。

  2. 检查系统资源使用趋势

    • 使用 sar(需要安装 sysstat)查看历史 CPU、内存、I/O 数据。

  3. 配置监控告警

    • 对磁盘使用率、内存使用率、CPU 负载、关键进程状态设置监控和告警。这是防止“急救”的最好方法。

急救工具箱(建议提前安装)

  • 诊断工具htopiotopiftop(网络), nethogs

  • 日志工具journalctl(systemd), logrotate

  • 性能分析sysstat(包含 sariostat), perf

  • 网络诊断netstatsstcpdump

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/985721.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年真空盘式过滤机厂家品牌权威推荐榜单:盘式过滤机/全自动盘式过滤机源头厂家精选

在矿山、冶金、化工、环保等涉及固液分离的工业领域,真空盘式过滤机凭借其连续作业、高效脱水和大处理量的核心优势,已成为关键设备之一。随着行业对资源回收率、排放标准和运行成本的要求日益严格,过滤设备的性能直…

03-核心几何类型详解

第三章:核心几何类型详解 3.1 几何类型概述 geometry-api-net 提供了一套完整的几何类型系统,遵循 OGC(开放地理空间联盟)的简单要素规范。所有几何类型都继承自抽象基类 Geometry,形成了清晰的类型层次结构。 3.…

04-空间关系操作符

第四章:空间关系操作符 4.1 空间关系概述 空间关系是 GIS 分析的基础,用于描述两个几何对象在空间上的相对位置关系。geometry-api-net 提供了 9 种符合 OGC 标准的空间关系测试操作符。 4.1.1 空间关系类型关系 操作…

ScrumMaster避坑指南

《ScrumMaster避坑指南:从“救火队员”到高效领航者的四个关键转变》 初任ScrumMaster时,常陷入四处救火却成效甚微的困境。本文总结四个常见误区及应对策略:1)纵容任务拖延会破坏Sprint目标,需从根源解决估算偏差…

01-项目概述与框架理念

第一章:geometry-api-net 项目概述与框架理念 1.1 项目简介 geometry-api-net 是一个面向 .NET 平台的高性能几何计算库,是 Esri Geometry API for Java 的 C# 移植版本。该库提供了完整的几何对象模型、空间关系测试…

02-快速开始指南

第二章:快速开始指南 2.1 环境准备 2.1.1 前提条件 在开始使用 geometry-api-net 之前,请确保您的开发环境满足以下条件:.NET SDK:8.0 或更高版本(推荐使用最新 LTS 版本) IDE:Visual Studio 2022、VS Code 或 …

广东靠谱的公关公司怎么选?3个核心标准帮你避坑

广东作为全国经济第一大省,聚集了科技、金融、文旅、电商等多元行业企业。这些企业在发展中常面临三大痛点:一是本地品牌拓展全国市场时缺乏顶层媒体资源链接,二是突发舆情时需要熟悉本地语境的快速响应团队,三是电…

2025滨海新区月子会所口碑推荐:新手家庭的母婴照护优选指南

随着母婴照护需求不断升级,“天津月子中心哪家好”“滨海新区月子会所怎么选”“塘沽高性价比月子中心有哪些”成为新手家庭高频提问。无论是追求“靠谱服务”“高性价比”,还是需要“拎包入住”“双职工专属方案”,…

iOS 异常捕获原理详解

iOS 异常捕获涉及 Objective-C/Swift 语言层面、运行时机制及系统底层信号处理,主要分为OC/Swift 异常捕获、崩溃信号捕获和自定义异常处理三类,以下从原理、机制到实现细节详细解析: 一、Objective-C 异常捕获原理…

2025上海翻译的公司推荐:提供高质量语言解决方案

在2025年全球交流愈发紧密的时代背景下,上海作为中国的经济中心与国际大都市,正以其开放包容的城市魅力和强劲的经济发展势头,吸引着全世界的目光。随着“一带一路”倡议的深入实施以及国际合作的不断拓展,上海的翻…

2025年天津钢管扣件租赁公司最新推荐榜,天津脚手架出租、天津脚手架搭设、天津移动脚手架、 天津钢管扣件出租、聚焦服务品质与业务竞争力深度剖析

随着天津城市建设工程的持续推进,各类建筑项目对脚手架、钢管扣件等设备的租赁需求日益增长,施工方在选择合作机构时面临多重考量 —— 如何辨别企业合规资质、如何匹配项目所需的设备类型与服务模式、如何规避设备使…

Java 查找字符串最后一次出现的位置

Java 查找字符串最后一次出现的位置在 Java 开发中,查找字符串中字符或子串最后一次出现的位置是高频需求(如解析文件路径、提取后缀名、处理 URL 等场景)。核心依赖 String 类的 lastIndexOf() 方法,该方法提供多…

博士留学中介排名TOP10!适配需求的好机构推荐

随着博士申请竞争日趋激烈,选对中介成为上岸关键。市面上机构质量参差不齐,结合服务深度、录取成果等维度,整理出 2025 十大留学中介排名,为学子精准指引方向。 第一名、优越留学 98 分 英美港新全学段申请标杆 官…

2025年度中国翻译服务公司推荐:综合实力强品牌权威公布

在全球化浪潮持续深化的2025年,中国作为世界经济的重要引擎,国际交流与合作日益频繁,对高质量翻译服务的需求呈现出爆发式增长。然而,当前国内翻译市场机构林立,水平良莠不齐,如何筛选出真正优质、专业的翻译服务…

初识MySQL:库的操作、数据类型、表的操作 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

博士机构排行新榜,含申请亮点的十大实力留学机构

博士申请的核心是学术匹配,选对留学机构能少走大半弯路。不少人困惑如何选博士留学中介,其实关键看两点:一是行业资质是否扎实,二是能否把博士优势转化为录取竞争力。结合2024年申请案例,我整理了10家机构的百分制…

SMTP协议中基础邮件传输所需的往返时间分析

本文深入探讨了在两个邮件服务器之间进行一次基本的SMTP消息传输究竟需要多少次往返时间。通过分析TCP连接建立及HELO、MAIL FROM、RCPT TO、DATA等命令序列,对不同的延迟计算模型进行了对比。问题:两个邮件服务器之…

2026年数控机床主轴轴承厂家推荐 磨床主轴轴承、车床轴承、铣床轴承、动力头轴承源头厂家

随着数控机床对加工精度、主轴转速与稳定性的要求越来越高,主轴轴承已成为决定机床性能的重要核心部件。选择合适的轴承厂家,不仅关系到初期整机性能,也影响设备稳定性与寿命。下面推荐几家当前表现突出的主轴轴承供…

皮肤科专家优选:二硫化硒洗发水有效去屑控油止痒最佳榜

《2025 中国头皮健康白皮书》数据显示,我国受头屑困扰的人群已达 6.08 亿,其中 90.5% 的头屑反复问题与马拉色菌过度繁殖紧密相关。二硫化硒作为《外用抗真菌制剂临床应用指南》重点推荐的去屑核心成分,凭借精准破坏…

day7敏捷冲刺

【Alpha冲刺Day7】Alpha版本测试 & 冲刺收尾 今日聚焦Alpha版本全流程验证与冲刺收尾,完成全模块回归测试、Bug闭环修复、版本打包及文档汇总,实现校园二手交易平台核心功能的完整交付,为Alpha阶段画上圆满句号…