Ceph运维手册(基于P版本)

news/2025/10/29 14:23:39/文章来源:https://www.cnblogs.com/singless233/p/19174307

本文基于Ceph P版,适用于ceph-deploy部署非容器化部署场景。

完整版PDF下载链接请点击以下链接

https://mp.weixin.qq.com/s/57zn-a4zZ4Dc2mBhsa23PQ

修订记录

版本 时间 修订人
V1.0 2024年03月06号 singless

目录

一、 健康状态检查

1. 场景说明

2.检查步骤

二、 集群变更运维

1. 场景说明

2. 风险评估

3. 准备工作

4. 操作流程

三、 单台服务器下电变更

1. 场景说明

2. 风险评估

3. 准备工作

4.操作流程

四、 集群删除主机

1. 场景说明

2. 风险评估

3. 准备工作

4.操作流程

五、 集群扩容主机

1. 场景说明

2. 风险评估

3. 准备工作

4. 操作流程

六、 网卡更换变更运维

1. 场景说明

2. 风险评估

3. 准备工作

4.操作流程

七、 SSD缓存盘更换变更运维

1. 场景说明

2. 风险评估

3. 准备工作

4.操作流程

八、 OSD变更运维

1. 场景说明

2. 风险评估

3. 准备工作

4. 操作流程

九、 关闭SWAP分区

1. 场景说明

2. 风险评估

3. 准备工作

4. 操作流程

十、 故障的MON服务修复

1. 风险评估

2. 场景说明

3. 准备工作

4. 操作流程

十一、 OSD容量不足问题处理

1. 场景说明

2. 风险评估

3. 准备工作

4. 操作流程

十二、 时钟偏移问题

1. 场景说明

2. 风险评估

3. 准备工作

4. 操作流程

十三、 运维常用命令

1. 场景说明

2. 操作步骤

一、健康状态检查

1.场景说明

当遇到对分布式存储的运维时,变更前需先对Ceph存储进行健康检查。

2.检查步骤

2.1命令检查存储健康状态

# ceph -s

 

 

 

 

集群健康状态查询,health项如果显示HEALTH_OK,表示集群处于正常状态;

# ceph osd stat

 

 

 

 

检查OSD健康状态,正常情况下OSDS、UP、IN数量保持一致。

2.2系统下查看各服务状态

Ø查看mon状态(每个MON节点)

# systemctl status ceph-mon@主机名.service

正常为active(running)

Ø查看mgr服务

# systemctl status ceph-mgr@主机名.service

正常为active(running)

Ø查看ceph-radosgw服务

# systemctl status ceph-radosgw@主机名.service

正常为active(running)

Ø查看ceph-osd服务

# systemctl status ceph-osd@3 例如查看osd.3服务,以此类推查看其他osd。

正常为active(running)

Ø查看nginx服务

# systemctl status nginx.service

正常为active(running)

Ø查看其他服务进程,格式以此类推:

# systemctl status vault.service

# systemctl status vault-agent.service

# systemctl status confd.service

# systemctl status fix.service

# systemctl status filebeat.service

正常为active(running)

二、集群变更运维

1.场景说明

当遇到存储服务器关机维护、机房需要搬迁时。

2.风险评估

Ø服务器关机过程中为保障数据安全,不能直接对存储节点服务器电源进行强制拔线或者强制关机等高风险关机操作,否则可能会出现文件系统损坏等情况。

Ø整体环境上电恢复后,若出现节点间网络不通,硬件故障等,会导致存储状态异常。

3.准备工作

3.1通知业务部门

对Ceph存储系统关闭前,需要通知业务部门,提交工单走流程审批,规范进行。

3.2存储健康状态检查

参照本文档存储健康状态检查,确保当前环境状态健康正常。

4.操作流程

4.1关机操作流程

4.1.1节点关机顺序

先关闭应用节点机/算力机/业务系统。

再关闭Ceph存储服务,关闭顺序:mds / rgw --> mgr --> osd --> mon

最后关闭操作系统。

4.1.2关闭存储节点命令

设置ceph flags避免数据迁移

# ceph osd set noout

# ceph osd set norebalance

查看Ceph各个服务运行在哪几台存储机上:

# ceph node ls"

打开/etc/ceph/ceph.conf配置文件可以查看rgw服务运行在哪几台服务器上,找到具体的主机后,运行下面的命令进行关闭操作。

关闭rgw服务,例如rgw服务运行在storage-01、storage-02、storage-03,关闭命令如下:

# ssh storage-01 systemctl stop ceph-radosgw.target

# ssh storage-02 systemctl stop ceph-radosgw.target

# ssh storage-03 systemctl stop ceph-radosgw.target

关闭osd服务

# ssh storage-01 systemctl stop ceph-osd.target

# ssh storage-02 systemctl stop ceph-osd.target

# ssh storage-03 systemctl stop ceph-osd.target

关闭mgr服务

# ssh storage-01 systemctl stop ceph-mgr.target

# ssh storage-02 systemctl stop ceph-mgr.target

# ssh storage-03 systemctl stop ceph-mgr.target

关闭mon服务

# ssh storage-01 systemctl stop ceph-mon.target

# ssh storage-02 systemctl stop ceph-mon.target

# ssh storage-03 systemctl stop ceph-mon.target

关闭存储机系统

# ssh storage-02 shutdown -h now

# ssh storage-03 shutdown -h now

5.开机操作流程

5.1节点启动顺序

按电源,启动Ceph存储机,节点开机顺序 mon --> mgr --> osd --> rgw。

启动应用节点机/算力机。

6.存储健康状态检查

节点启动后,参考第一节<健康状态检查>检查集群状态是否已恢复健康。

三、单台服务器下电变更

1.场景说明

适用于当遇到分布式存储集群中服务器需要关机或者更换服务器硬件资源,如增加内存条,计划性下电等分布式存储的运维场景。

2.风险评估

Ø服务器关机过程中为保障数据安全,不可直接对其服务器电源进行强制拔线或者采取强制关机等高风险关机操作,否则可能会出现文件系统损坏等情况。

3.准备工作

3.1计划变更作业时间

在正式进行变更操作前应沟通确认好变更窗口期,变更窗口期范围需根据本次变更内容和业务情况进行沟通协商,尽量将变更窗口期设定为对业务影响最小的时间段;如遇服务器故障情况需进行变更,则需根据实际情况进行商讨。

3.2硬件资源准备

若服务器需要更换、增加内存条或网卡RAID卡等硬件资源,在运维变更前应准备好相应硬件资源。

3.3存储状态检查

参照本文档《健康状态检查》章节,对存储平台进行健康状态检查,确保当前环境正常。

4.操作流程

4.1存储禁止数据平衡

# ceph osd set noout

# ceph osd set norebalance

4.2关闭服务器上ceph相关服务

# systemctl stop ceph-osd.target

# systemctl stop ceph-mgr.target

# systemctl stop ceph-mon.target

# systemctl stop ceph-radosgw.target

4.3服务器关机

ssh登录至待变更的服务器系统,安全关闭待变更的服务器,待服务器完全停止运行后,可进行下电和网卡更换操作。

#sync && sync && poweroff

4.4服务器开机

当服务器上电开机后对其网络进行检查,确保对应网络均正常通信;检查节点更换的硬件是否正常工作。检查开机后日志中是否有硬件报错。

# dmesg -T|grep -i error

4.5存储开启数据恢复

# ceph osd unset noout

# ceph osd unset norebalance

4.6存储状态检查

参照本文档《健康状态检查》章节,对存储平台进行健康状态检查,确保当前存储环境已恢复正常。

四、集群删除主机

1.场景说明

在存储使用过程中,遇到服务器故障或服务器整体性能差时需要对其进行替换变更,对分布式存储的运维场景。

2.风险评估

Ø在变更操作前需对本次变更操作进行充分的风险评估,评估本次变更操作是否影响数据安全性;当运行在超融合场景下还需评估是否对业务系统产生不良影响;同时根据实际情况评估好风险规避措施。

Ø禁止在存储处于亚健康状态时对其进行变更操作,以防酿成重大故障。

Ø禁止先对分布式存储进行相关变更操作后使分布式存储集群处于一个亚健康状态下,等待相关新的设备资源加入。变更操作前需准备好新的硬件资源。

3.准备工作

3.1计划变更作业时间

在正式进行变更操作前应提前沟通确认好变更窗口期,变更窗口期范围需根据本次变更内容和业务情况进行沟通协商,尽量将变更窗口期设定为对业务影响最小的时间段;如遇服务器故障情况需进行变更,则需根据实际情况进行商讨。

3.2服务器准备

为确保本次变更能顺利进行,同时降低变更风险;如果需要替换服务器,现场应在正式变更操作前提前准备好相关新的服务器等设备资源,并安装好操作系统做好基础配置,在本节的操作执行完成后,按照第五节<集群扩容主机>的步骤将主机扩容至集群内。禁止先对分布式存储进行相关变更操作后使分布式存储集群处于一个亚健康状态下等待相关新的设备资源加入。

ý注意:

新的服务器硬件配置需与集群中现有服务器配置保持一致,包括CPU、内存、磁盘和网卡硬件型号和数量。若存在硬件不一致则需根据实际情况进行商讨。

3.3存储状态检查

参照本文档《健康状态检查》章节,对存储平台进行健康状态检查,确保当前环境正常。

4.操作流程

4.1设置“禁止数据恢复”

# ceph osd set noout

# ceph osd set norebalance

4.2集群中移除OSD数据盘

# ceph osd tree ##确认服务器上使用了哪些OSD

# ceph osd out 6

4.3设置允许数据恢复

# ceph osd set noout

# ceph osd set norebalance

等待数据均衡完成。

4.4集群中移除OSD

# systemctl stop ceph-osd@6.service

# ceph osd down osd.6

# ceph osd purge osd.6 --force

4.5从集群中移除节点

在ceph-deploy节点上执行

# ceph osd crush rm ceph-5

# ceph-deploy mon destroy ceph-5 ##可选,删除ceph-5上的mon服务

4.6待变更服务器关机

 

ssh登录至待变更的服务器系统,安全关闭服务器,待服务器完成停止运行后,可进行下电和下架变更操作。

# sync && sync && poweroff

4.7存储状态检查

参照本文档《健康状态检查》章节,对存储平台进行健康状态检查,确保当前存储环境已恢复正常。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/949879.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025最新AI智能体学习路线图

零基础如何入门AI智能体?智能体来了为你梳理完整学习路径。 🧠智能体来了课程主体线路下图描绘了智能体学习的整体思路,细节内容颇多,今天给各位看官讲解部分,关注博主,详细细节后续会持续更新。大纲打造旨在解…

K8S如何查询PVC的已用容量和剩余可用容量

在业务中如果有数据持久化存储的需求就免不了要使用到PV、PVC,既然使用了PV和PVC那么它们的容量使用情况也是我们需要关注的。目前K8S并未提供接口让我们可以直接查询到PVC的容量使用情况,因此本文主要介绍K8S环境下…

学术会议会议合集 | 人工智能、未来教育 、智能控制 、计算科学 、传感器技术等EI会议合集

人工智能、未来教育 、智能控制 、计算科学 、传感器技术等EI会议合集2025年第二届人工智能与未来教育国际学术会议(AIFE 2025) 2025 2nd International Conference on Artificial Intelligence and Future Educatio…

完整教程:金融分析师技能提升路径与学习资源指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025 年水磨石厂家最新推荐榜,技术实力与市场口碑深度解析水磨石预制板/人造水磨石/水磨石地砖/水磨石成品地砖/彩色水磨石地砖公司推荐

随着无机水磨石、预制板等细分品类需求激增,市场品牌分化加剧。为破解采购难题,本次榜单依托建筑材料流通协会地坪委员会 2025 年度测评数据,采用 "四维评估体系":生产实力(占比 30%)涵盖厂房规模与自…

Unreal:如何调用DLL

说说我的方法吧,不知道正不正确,但是能用,哈哈哈哈,跟着官方的第三方库弄的打包dll那一套我就不赘述了,就说说拿到DLL和Lib怎么办 以官方模板创建得插件TestThird为例 将dll,lib文件放到TestThird\Source\ThirdP…

建筑矿山设备工厂:MyEMS 如何助力实现 30% 能源自给率与 ISO 50001 认证?

建筑矿山设备工厂作为典型的高能耗制造场景,其生产流程涉及大型机床加工、热处理、焊接、装配等环节,对电力、热力、燃料的需求旺盛。近年来,在 “双碳” 目标与能源成本上涨的双重压力下,工厂不仅需要降低对传统化…

lldpd介绍

1 介绍 lldpd是IEEE802.1AB (LLDP)协议的一种实现。目标是帮助定位所有设备的邻居设备。例如可以定位服务器某个网卡是接在交换机的哪个接口上。要使用该协议交换机上需要启用lldp协议,linux服务器上需要安装lldp相…

HarmonyOS6纯血鸿蒙开发

一、HarmonyOS 开发准备 1.成为华为开发者 在开始应用开发前,需要先完成以下准备工作。在华为开发者联盟网站上,注册成为开发者,并完成实名认证,从而享受联盟开放的各类能力和服务。 1.1 注册账号 如果您已经有华为…

2025年10月短视频营销公司实力榜:五强对比评测与选择指南

一、引言 短视频流量红利进入精细化运营阶段,企业主、市场总监、增长负责人普遍面临“投流贵、内容倦、转化弱”的三重夹击。对创业者而言,能否以可控成本跑通短视频获客闭环,直接决定现金流健康;对成熟品牌而言,…

kettle调度系统-kettle嵌入集成方式调度,稳如磐石,一分钟完成任务调度配置

这款调度产品,早在N年前已经横扫江湖,后来隐退于kettler人间,不少大佬已经在生产环境使用这款产品,今天将重出江湖,造福kettler,咱们正式叫它【kettle金刚调度系统】,江湖名xxkg-pdi。废话少说,亮剑!!! 本款…

探索 RoCE v2:高性能网络技术在 AI 场景中的应用

1. RDMA介绍 1.1 什么是RDMA RDMA(Remote Direct Memory Access),全称远端内存直接访问技术,可以在使用极少CPU资源的情况下,将数据从一台服务器传输至另一台服务器。 在数据中心内部,大型分布式计算存储资源之间,…

K8S下的GPU监控

1 DCGM介绍 在前面给大家介绍了K8S环境下如何调度GPU,在显卡的实际应用中,监控是不可缺少的一环。通过监控,我们能更直观的了解到显卡的使用情况和各项监控指标。英伟达提供了DCGM (NVIDIA Data Center GPU Manager…

Unreal:多屏幕全屏后只有一个屏幕显示怎么办

这里讨论的是,多个屏幕时,用N卡的Surround融合为一个屏幕,当开始游戏后发生的问题 原因 这里的代码截图是Unreal5.3.2版本当全屏时,会获得一个最大分辨率,这个分辨率是你主屏幕的分辨率,即使是通过Surround融合成…

MyEMS 的智慧大脑:从能耗建模到预测性维护的全流程技术逻辑

在 “双碳” 目标与企业降本增效的双重驱动下,能源管理已从传统的 “事后统计” 转向 “实时调控、主动预防” 的数字化新阶段。作为智能能源管理系统(Energy Management System, EMS)的进阶形态,MyEMS 的核心竞争…

用Go语言从零开始开发一个Prometheus Exporter

1 基本概念 1 prometheus介绍 Prometheus 是一个开源的系统监控和报警工具,专为高效采集和存储时间序列数据而设计,目前广泛用于监控微服务架构、云基础设施和Kubernetes集群等环境。Prometheus的架构图如下。export…

CentOS7下OpenSSH10.0p2升级实践

CentOS7下OpenSSH10.0p2升级实践安装Telnet服务 为了避免升级OpenSSH导致服务器不可连接。需要先下载安装Telnet组件。升级期间使用Telnet作为升级期间的服务器连接方式。先查询telnet是否安装 rpm -qa telnet 如果没有…

AI基础概念扫盲:人工智能入门指南

ChatGPT的爆火带动了AIGC相关产业链的发展。也激发了大众研究探索AI的热情。本文主要介绍AI领域的一些基础概念及技术。AI:人工智能 (artificial intelligence) 。属于计算机科学领域,致力于解决与人类智慧相关的常见…

2025年美国威盾VTON进口分体式流量计生产厂家权威推荐:美国威盾VTON进口气体流量计/美国威盾VTON进口流量计/美国威盾VTON进口旋进漩涡流量计源头供应商精选

美国威盾VTON进口分体式流量计作为工业流量测量领域的重要产品,其市场需求保持稳定增长。分体式结构设计使得流量计能够在复杂工况下实现更灵活的安装与维护,在高温、高压及恶劣环境中表现尤为出色。 本次评选从企业…

Linux服务器感染病毒,如何处理?

1 导语 最近在做性能测试时,发现一台服务器的性能很差,一排查才发现原来是中了挖矿病毒,通常来说,服务器中病毒后,最快速的处理方式就是重装系统,但对于运行着重要业务的系统来说,重装系统较为麻烦。本文主要介…