Kubernetes 运维操作手册:从 etcd 快照进行精确恢复

1

   

5 步实现 etcd 精确恢复

  1. 将快照恢复到本地 etcd 数据目录。

  2. 使用恢复的数据启动本地 etcd 实例。

  3. 使用 etcdctl 查询特定键(例如,ConfigMap)。

  4. 使用 auger 解码以提取干净的 YAML。

  5. 使用 kubectl 申请恢复到您的实时集群。

本指南将指导您从 etcd 快照中精准地恢复资源,而无需触发完整的集群恢复。无论您是要排除意外删除故障,还是进行取证调试,这种轻量级且有针对性的方法都能最大程度地减少停机时间。#Kubernetes

2

   

引言:🩺Kubernetes 操作里的紧急情况

etcd 是 Kubernetes 集群的核心,它是一个分布式键值存储系统,忠实地维护系统内每个对象的状态。但是,如果某个资源(例如 ConfigMap、Secret 或 Deployment)被删除或损坏,会发生什么情况呢?

启动完整的集群恢复就像进行心脏手术来修复纸张划伤一样。它具有破坏性、风险性,而且通常没有必要。

这就是手术精度发挥作用的地方。

想象一下,您的生产环境陷入危机——一个重要的 ConfigMap 消失了,Pod 崩溃了,用户只能盯着错误页面。完全回滚会比问题本身造成更大的损失。您需要的是一个“外科医生”式的方案:只修复损坏的部分,其他部分一概不做。

在本博客中,您将了解如何:

  1. 从 etcd 快照中隔离并提取特定资源

  2. 仅将所需内容直接恢复到实时 Kubernetes 集群中

  3. 避免不必要的停机并保持集群稳定性

  4. 非常适合重视最小影响恢复的 DevOps、SRE 和 Kubernetes 管理员。

3

   

先决条件🔧

为了继续操作,请确保您已具备:

  • etcd v3.4+ — etcd 服务器二进制文件可在此处获取

  • etcdctl — 与 etcd 交互的 CLI

  • auger — CLI 工具,用于将 etcd 的二进制有效负载解码为 YAML

  • kubectl — CLI 用于将资源应用于 Kubernetes 集群

  • 快照文件— 例如 live-cluster-snapshot.db

始终先在暂存环境中工作。从干净的快照开始:

etcdctl snapshot save live-cluster-snapshot.db

4

   

恢复过程🏥

假设 production 命名空间中一个关键的 ConfigMap app-config 被意外删除了。以下是如何将其恢复:

4.1

   

🧬 步骤 1:准备快照

如果压缩,请解压缩快照:

gunzip live-cluster-snapshot.db.gz

然后恢复它:

etcdctl snapshot restore live-cluster-snapshot.db --data-dir=recovery-etcd

4.2

   

🩻 第 2 步:启动本地 etcd 实例

etcd --data-dir=recovery-etcd --listen-client-urls=http://localhost:2379

核实:

etcdctl --endpoints=localhost:2379 endpoint status

4.3

   

🔍 步骤 3:定位并提取资源

Kubernetes 将 ConfigMap 存储在类似 /registry/configmaps//的键中。列出生产命名空间中的键:

etcdctl --endpoints=localhost:2379 get --prefix "/registry/configmaps/production" --keys-only你会看到类似这样的内容:

/registry/configmaps/production/app-config提取并解码 ConfigMap:

etcdctl --endpoints=localhost:2379 get /registry/configmaps/production/app-config --print-value-only | auger decode > app-config.yaml

生成的 app-config.yaml 可能如下所示:

apiVersion: v1  kind: ConfigMap  metadata:    name: app-config    namespace: production  data:    api-url: "https://api.example.com"    log-level: "debug"

4.4

   

步骤 4:恢复到集群

通过试运行来测试修复效果:

kubectl apply -f app-config.yaml --dry-run=server

如果一切检查无误,则应用它:

kubectl apply -f app-config.yaml

输出:

configmap/app-config created

4.5

   

🧹 步骤 5:清理

pkill etcdrm -rf recovery-etcd app-config.yaml

5

   

高级场景🔍

5.1

   

💠 跨命名空间恢复

cat app-config.yaml | yq eval '.metadata.namespace = "dev"' | kubectl apply -f -

5.2

   

🔐 加密集群 (KMS)

使用 etcdctl 并根据 etcd 加密指南配置解密密钥。📦批量恢复 

etcdctl --endpoints=localhost:2379 get --prefix "/registry/configmaps/production" --print-value-only | auger decode > all-cm.yaml

6

   

总结

最后的想法💡Kubernetes 管理员经常为灾难性故障做准备,但忽略了精确恢复的价值。能够精准地提取和恢复资源,并减少停机时间、防止附带损害、增强对事件响应的信心。当下次灾难来临时,您不会手忙脚乱,而是会采取行动。

随手关注或者”在看“,诚挚感谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/81669.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode Hot100刷题——合并区间

56. 合并区间 以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。 示例 1: 输入:i…

《Metasploit框架核心模块解析与安全防护实践》​

目录 ​​一、框架模块化设计与安全验证价值​​ ​​1. 漏洞验证模块(Exploit Modules)​​ ​​2. 安全评估模块(Auxiliary Modules)​​ ​​3. 安全响应模块(Post-Exploitation)​​ ​​4. 载荷安全…

Cribl 中 Parser 扮演着重要的角色 + 例子

先看文档: Parser | Cribl Docs Parser The Parser Function can be used to extract fields out of events or reserialize (rewrite) events with a subset of fields. Reserialization will preserve the format of the events. For example, if an event contains comma…

程序设计实践--排序(1)

&#xff11;、插入排序&#xff08;一个数组&#xff09; #include<bits/stdc.h> using namespace std; const int N1e35; int a[N]; int n; int main(){cin>>n;for(int i1;i<n;i){cin>>a[i];}for(int i1;i<n;i){int va[i];int ji-1;while(j>1&am…

MAC电脑中右键后复制和拷贝的区别

在Mac电脑中&#xff0c;右键菜单中的“复制”和“拷贝”操作在功能上有所不同&#xff1a; 复制 功能&#xff1a;在选定的位置创建一个与原始文件相同的副本。快捷键&#xff1a;CommandD用于在当前位置快速复制文件&#xff0c;CommandC用于将内容复制到剪贴板。效果&…

新能源汽车焊接智能节气阀

在新能源汽车产业迅猛发展的浪潮中&#xff0c;制造工艺的优劣直接关系到车辆的性能、安全与市场竞争力。焊接&#xff0c;作为新能源汽车生产流程里的关键一环&#xff0c;无论是构建车身框架&#xff0c;还是连接电池模组&#xff0c;其质量的好坏都起着决定性作用。而在焊接…

Linux:面试题

1. 什么是中断和异常&#xff1f; 中断&#xff1a;由外部设备&#xff08;如键盘、网卡&#xff09;触发的异步事件&#xff0c;用于通知 CPU 有紧急事件需要处理。 异常&#xff1a;由 CPU 内部执行指令时产生的同步事件&#xff08;如除零错误、缺页异常&#xff09;&#…

linux关闭某端口暂用的进程

查看是哪个端口暂用 sudo netstat -tulpn | grep :80根据图片 显示 80端口暂用的 进程id是 3002 结束进程id为3002的进程 sudo kill -9 3002

【学习心得】Jupyter 如何在conda的base环境中其他虚拟环境内核

如果你在conda的base环境运行了jupyter lab打开了一个ipynb文本&#xff0c;此时选择的内核是base虚拟环境的Python内核&#xff0c;如果我想切换成其他conda虚拟环境来运行这个文件该怎么办&#xff1f;下面我们试着还原一下问题&#xff0c;并且解决问题。 【注】 这个问题出…

React Flow 边的基础知识与示例:从基本属性到代码实例详解

本文为《React Agent&#xff1a;从零开始构建 AI 智能体》专栏系列文章。 专栏地址&#xff1a;https://blog.csdn.net/suiyingy/category_12933485.html。项目地址&#xff1a;https://gitee.com/fgai/react-agent&#xff08;含完整代码示​例与实战源&#xff09;。完整介绍…

ZooKeeper 原理解析及优劣比较

大家好&#xff0c;这里是架构资源栈&#xff01;点击上方关注&#xff0c;添加“星标”&#xff0c;一起学习大厂前沿架构&#xff01; 引言 在分布式系统中&#xff0c;服务注册、配置管理、分布式锁、选举等场景都需要一个高可用、一致性强的协调服务。Apache ZooKeeper 凭…

模糊照片变清晰:照片高清修复 ComfyUI 使用教学

模糊照片变清晰 满心欢喜地翻出旧相册&#xff0c;想重温那些美好的回忆&#xff0c;结果照片却模糊不清&#xff0c;根本看不清当年的模样&#xff1b;又或者精心拍摄了一张超有氛围感的照片&#xff0c;结果因为手抖或者光线问题&#xff0c;变得模糊&#xff0c;无法发朋友圈…

IEEEtran中文献中的作者大于3个时,用et al.省略

latex&#xff1a; 在使用bib文件的时候&#xff0c;当参考文献超过三个作者时&#xff0c;第三个作者后加逗号并接上et al.。我使用的是IEEEtran.bst。 \begingroup \small \bibliographystyle{IEEEtran} \bibliography{newbmyref1} \endgroup1.需要将IEEEtran.bst添加到这个…

Android Studio Kotlin 中的方法添加灰色参数提示

在使用 Android Studio 时&#xff0c; 我发现使用 Java 编写方法后在调用方法时&#xff0c; 会自动显示灰色的参数。 但在 Kotlin 中没有显示&#xff0c; 于是找了各种方法最后找到了设置&#xff0c; 并且以本文章记录下来。 博主博客 https://blog.uso6.comhttps://blog.…

python宠物用品商城系统

目录 技术栈介绍具体实现截图系统设计研究方法&#xff1a;设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示 技术栈介绍 Django-SpringBoot-php-Node.js-flask 本课题的研究方法和研究步骤基本合理&#xff0c;难度适中&#xf…

《具身智能机器人:自修复材料与智能结构设计的前沿探索》

在具身智能机器人的研发进程中&#xff0c;自修复材料与智能结构设计无疑是极具挑战性与创新性的关键领域&#xff0c;吸引着无数科研人员投身其中&#xff0c;探寻未知。 传统机器人在复杂多变的环境中执行任务时&#xff0c;一旦材料出现损伤&#xff0c;如外壳刮擦、内部线…

矩阵的秩(Rank)

矩阵的秩&#xff08;Rank&#xff09;是线性代数中的核心概念&#xff0c;表示矩阵中线性无关的行&#xff08;或列&#xff09;的最大数量&#xff0c;反映了矩阵所包含的“独立信息”的多少。以下是其核心要点&#xff1a; 1. 秩的定义 行秩&#xff1a;矩阵中线性无关的行…

麒麟系统编译osg —— 扩展篇

一、背景 前文讲到麒麟系统编译osg&#xff0c;通常情况下会提示&#xff1a; 意思是无法生成插件osgdb_jpeg&#xff0c;需要配置“JPEG_LIBRARY”和“JPEG_INCLUDE_DIR”。 经查&#xff0c;本机不存在jpeglib.h和libjpeg.so&#xff0c;需要另外安装。 二、编译jpeg库 …

【数据仓库面试题合集①】数据建模高频面试题及解析

🧠 面试官爱问什么?——核心考察点 数据建模作为数仓岗位面试的重头戏,考察的不只是模型知识,更是对业务理解、抽象能力和工程落地经验的综合评估。常见题型可分为三类: 概念类:模型类型、建模方法论(如维度建模、范式建模) 场景类:给定一个业务场景进行模型设计(如…

园区无人机智能巡检项目方案

在工业4.0与智慧园区建设加速推进的今天&#xff0c;传统人工巡检的局限性日益凸显&#xff1a;效率低、覆盖范围有限、安全隐患大。而无人机智能巡检技术的崛起&#xff0c;正以其 "高空视角AI大脑全自动作业" 的创新模式&#xff0c;重新定义园区管理标准。本文将深…