ceph源码阅读 erasure-code

1、ceph纠删码

纠删码(Erasure Code)是比较流行的数据冗余的存储方法,将原始数据分成k个数据块(data chunk),通过k个数据块计算出m个校验块(coding chunk)。把n=k+m个数据块保存在不同的节点,通过n中的任意k个块还原出原始数据。EC包含编码和解码两个过程。

ceph中的EC编码是以插件的形式来提供的。EC编码有三个指标:空间利用率、数据可靠性和恢复效率。ceph提供以下几种纠删码插件:clay(coupled-layer)、jerasure、lrc、shec、isa。

clay:用于在修复失败的节点/OSD/rack时节省网络带宽和磁盘IO。

jerasure:开源库,目前ceph默认的编码方式。

isa:isa是Intel提供的EC库,利用intel处理器指令加速计算,只能运行在Intel CPU上。

lrc:将校验块分为全局校验块和局部校验块,减少单个节点失效后恢复过程的网络开销。

shec:shec(k,m,l),k为data chunk,m为coding chunk,l代表计算coding chunk时需要的data chunk数量。其最大允许失效数据块为:ml/k,恢复失效的单个数据块(data chunk)只需要额外读取l个数据块。

2、erasure-code文件结构

erasure-code是ceph的纠删码核心模块,包含5个文件夹和ErasureCodeInterface、ErasureCode、ErasureCodePlugin,采用工厂模式。

  • clay、isa、jerasure、lrc、shec是ceph的EC插件。
  • ErasureCodeInterface:提供EC插件的共有接口,每个接口有详细的说明。
  • ErasureCode:提供获取纠删码参数和核心编码、解码接口。
  • ErasureCodePlugin:提供纠删方式事件的注册、添加、删除登功能。

3、数据条带化

存储设备都有吞吐量限制,它会影响性能和伸缩性,所以存储系统一般都支持条带化(把连续的信息分片存储于多个设备)以增加吞吐量和性能。

  • 基本概念

块(chunk):基于纠删码编码时,每次编码将产生若干大小相同的块(要求这些块时有序的,否则无法解码)。ceph通过数量相等的PG将这些分别存储在不同的osd中。

条带(strip):如果编码对象太大,可分多次进行编码,每次完成编码的部分称为条带。同一个对内的条带时有序的。

分片(shared):同一个对象中所有序号相同的块位于同一个PG上,他们组成对象的一个分片,分片的编号就是块的序号。

空间利用率(rate):通过k/n计算。

对象尺寸: Ceph 存储集群里的对象有最大可配置尺寸(如 2MB 、 4MB 等等),对象尺寸必须足够大以便容纳很多条带单元、而且应该是条带单元的整数倍。

条带数量: Ceph 客户端把一系列条带单元写入由条带数量所确定的一系列对象,这一系列的对象称为一个对象集。客户端写到对象集内的最后一个对象时,再返回到第一个。

条带宽度: 条带都有可配置的单元尺寸(如 64KB )。 Ceph 客户端把数据等分成适合写入对象的条带单元,除了最后一个。条带宽度应该是对象尺寸的分片,这样对象才能 包含很多条带单元。

strip_width=chunk_size*strip_size

假设有EC(k=4,m=2),strip_size=4,chunk_size=1K,那么strip_width=4K。在ceph中,strip_width默认为4K。

  • 数据条带化过程

如果要处理大尺寸图像、大 S3 或 Swift 对象(如视频)、或大的 CephFS 目录,你就能看到条带化到一个对象集中的多个对象能带来显著的读/写性能提升。当客户端把条带单元并行地写入相应对象时,就会有明显的写性能,因为对象映射到了不同的归置组、并进一步映射到不同 OSD ,可以并行地以最大速度写入。

在上图中,客户端数据条带化到一个对象集(上图中的objectset1),它包含 4 个对象,其中,第一个条带单元是object0的stripe unit 0、第四个条带是object3的stripe unit 3,写完第四个条带,客户端要确认对象集是否满了。如果对象集没满,客户端再从第一个对象起写入条带(上图中的object0);如果对象集满了,客户端就得创建新对象集(上图的object set 2),然后从新对象集中的第一个对象(上图中的object 4)起开始写入第一个条带(stripe unit16)。

4、源码解析

  • 编码流程

ECUtil::encode是将原始数据按条带宽度进行分割,然后对条带数据编码,得到条带的数据块和校验块。把每个条带化数据块和校验块有序的链接,形成数据块和校验块。

int ECUtil::encode(const stripe_info_t &sinfo,ErasureCodeInterfaceRef &ec_impl,bufferlist &in,const set<int> &want,map<int, bufferlist> *out)
....//文件每次按strip_width的大小进行encode编码for (uint64_t i = 0; i < logical_size; i += sinfo.get_stripe_width()) {map<int, bufferlist> encoded;bufferlist buf;buf.substr_of(in, i, sinfo.get_stripe_width());//调用对应的纠删码方式进行编码int r = ec_impl->encode(want, buf, &encoded);ceph_assert(r == 0);//将条带化的数据块和校验块追加到outfor (map<int, bufferlist>::iterator i = encoded.begin();i != encoded.end();++i) {ceph_assert(i->second.length() == sinfo.get_chunk_size());(*out)[i->first].claim_append(i->second);}}....return 0;
}

接下来深入分析ec_impl->encode(want, buf,&encoded),ErasureCode是ErasureCodeInterface的子类,因此调用ErasureCode::encode。在ErasureCode::encode主要是进行map<int, bufferlist>*encoded的内存分配(encode_prepare())和数据块的编码(encode_chunks)。

int ErasureCode::encode(const set<int> &want_to_encode,const bufferlist &in,map<int, bufferlist> *encoded)
{unsigned int k = get_data_chunk_count();unsigned int m = get_chunk_count() - k;bufferlist out;//encoded的内存块分配int err = encode_prepare(in, *encoded);if (err)return err;//进行编码操作encode_chunks(want_to_encode, encoded);for (unsigned int i = 0; i < k + m; i++) {if (want_to_encode.count(i) == 0)encoded->erase(i);}return 0;
}

ErasureCode::encode_prepare()进行参数初始化和内存分配。

int ErasureCode::encode_prepare(const bufferlist &raw,map<int, bufferlist> &encoded) const
{unsigned int k = get_data_chunk_count();unsigned int m = get_chunk_count() - k;//每个块的大小unsigned blocksize = get_chunk_size(raw.length());//空白块的个数unsigned padded_chunks = k - raw.length() / blocksize;bufferlist prepared = raw;//将数据raw按blocksize大小有序分割,并将分割后的块有序写入到encodedfor (unsigned int i = 0; i < k - padded_chunks; i++) {bufferlist &chunk = encoded[chunk_index(i)];chunk.substr_of(prepared, i * blocksize, blocksize);chunk.rebuild_aligned_size_and_memory(blocksize, SIMD_ALIGN);ceph_assert(chunk.is_contiguous());}if (padded_chunks) {unsigned remainder = raw.length() - (k - padded_chunks) * blocksize;bufferptr buf(buffer::create_aligned(blocksize, SIMD_ALIGN));raw.copy((k - padded_chunks) * blocksize, remainder, buf.c_str());buf.zero(remainder, blocksize - remainder);encoded[chunk_index(k-padded_chunks)].push_back(std::move(buf));for (unsigned int i = k - padded_chunks + 1; i < k; i++) {bufferptr buf(buffer::create_aligned(blocksize, SIMD_ALIGN));buf.zero();encoded[chunk_index(i)].push_back(std::move(buf));}}for (unsigned int i = k; i < k + m; i++) {bufferlist &chunk = encoded[chunk_index(i)];chunk.push_back(buffer::create_aligned(blocksize, SIMD_ALIGN));}return 0;
}

以上的工作完成后,可以开始正式的编码encode_chunks()。这里假设编码方式为jerasure,选用RS码。

int ErasureCodeJerasure::encode_chunks(const set<int> &want_to_encode,map<int, bufferlist> *encoded)
{char *chunks[k + m];for (int i = 0; i < k + m; i++)chunks[i] = (*encoded)[i].c_str();jerasure_encode(&chunks[0], &chunks[k], (*encoded)[0].length());return 0;
}

jerasure_encode()是调用jerasure库的编码函数。

void ErasureCodeJerasureReedSolomonVandermonde::jerasure_encode(char **data,char **coding,int blocksize)
{jerasure_matrix_encode(k, m, w, matrix, data, coding, blocksize);
}
  • 解码流程

ECUtil::decode函数有两个,挑个简单的来分析。

下面的decode()函数初始化数据,并进行解码。

int ECUtil::decode(const stripe_info_t &sinfo,ErasureCodeInterfaceRef &ec_impl,map<int, bufferlist> &to_decode,bufferlist *out) {ceph_assert(to_decode.size());uint64_t total_data_size = to_decode.begin()->second.length();....for (uint64_t i = 0; i < total_data_size; i += sinfo.get_chunk_size()) {map<int, bufferlist> chunks;for (map<int, bufferlist>::iterator j = to_decode.begin();j != to_decode.end();++j) {chunks[j->first].substr_of(j->second, i, sinfo.get_chunk_size());}bufferlist bl;int r = ec_impl->decode_concat(chunks, &bl);ceph_assert(r == 0);ceph_assert(bl.length() == sinfo.get_stripe_width());out->claim_append(bl);}return 0;
}

ErasureCode::decode_concat()进行解码,并且链接哥哥数据块,还原出原数据。

int ErasureCode::decode_concat(const map<int, bufferlist> &chunks,bufferlist *decoded)
{set<int> want_to_read;for (unsigned int i = 0; i < get_data_chunk_count(); i++) {want_to_read.insert(chunk_index(i));}map<int, bufferlist> decoded_map;//解码核心部分int r = _decode(want_to_read, chunks, &decoded_map);if (r == 0) {//将解码后的数据块链接for (unsigned int i = 0; i < get_data_chunk_count(); i++) {decoded->claim_append(decoded_map[chunk_index(i)]);}}return r;
}

同样地,这里也是假设使用纠删码插件为jerasure。jerasure_decode()是调用jerasure库的解码函数。

int ErasureCodeJerasure::decode_chunks(const set<int> &want_to_read,const map<int, bufferlist> &chunks,map<int, bufferlist> *decoded)
{unsigned blocksize = (*chunks.begin()).second.length();int erasures[k + m + 1];//记录丢失块的编号int erasures_count = 0;//丢失块的个数char *data[k];char *coding[m];for (int i =  0; i < k + m; i++) {if (chunks.find(i) == chunks.end()) {erasures[erasures_count] = i;erasures_count++;}if (i < k)data[i] = (*decoded)[i].c_str();elsecoding[i - k] = (*decoded)[i].c_str();}erasures[erasures_count] = -1;ceph_assert(erasures_count > 0);return jerasure_decode(erasures, data, coding, blocksize);
}

参考资料:

1、体系结构 - Ceph Documentation

2、ceph源码分析 常涛

3、ceph设计原理与实现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/60610.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解密Spring MVC异常处理:从局部到全局,打造稳固系统的关键步骤

&#x1f600;前言 在现代软件开发中&#xff0c;异常处理是不可或缺的一部分&#xff0c;它能够有效地提高系统的稳定性和健壮性。在Spring MVC框架中&#xff0c;异常处理机制起着至关重要的作用&#xff0c;它允许开发者在程序运行过程中捕获、处理和报告异常&#xff0c;从…

Qt/C++编写视频监控系统80-远程回放视频流

一、前言 远程回放NVR或者服务器上的视频文件&#xff0c;一般有三种方式&#xff0c;第一种是调用厂家的SDK&#xff0c;这个功能最全&#xff0c;但是缺点明显就是每个厂家的设备都有自己的SDK&#xff0c;只兼容自家的设备&#xff0c;如果你的软件需要接入多个厂家的&…

【深入解读Redis系列】Redis系列(五):切片集群详解

首发博客地址 https://blog.zysicyj.top/ 系列文章地址[1] 如果 Redis 内存很大怎么办&#xff1f; 假设一台 32G 内存的服务器部署了一个 Redis&#xff0c;内存占用了 25G&#xff0c;会发生什么&#xff1f; 此时最明显的表现是 Redis 的响应变慢&#xff0c;甚至非常慢。 这…

分类预测 | MATLAB实现SSA-CNN-SVM基于麻雀算法优化卷积支持向量机分类预测

分类预测 | MATLAB实现SSA-CNN-SVM基于麻雀算法优化卷积支持向量机分类预测 目录 分类预测 | MATLAB实现SSA-CNN-SVM基于麻雀算法优化卷积支持向量机分类预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 MATLAB实现SSA-CNN-SVM基于麻雀算法优化卷积支持向量机分类预测…

解决selenium的getdrive()方法阻塞问题

selenium里面的Webdriver的get()方法默认是阻塞的&#xff0c;也就是说要等整个页面全都加载完它才会相应。但我们大部分时候不需要用到页面里的所有东西&#xff0c;也许只需要用到里面的一个元素就行了 所以下面是我的解决方法&#xff1a; 初始化代码&#xff1a; # 设置…

perl 语言中 AUTOLOAD 的用法

这里的 AUTOLOAD可以理解为自动加载。具体来说就是&#xff0c;在正常情况下&#xff0c;我们不能调用一个尚未定义的函数&#xff08;子例程&#xff09;。不过&#xff0c;如果在未定义函数的包中有一个名为 AUTOLOAD的函数&#xff0c;那么对未定义函数的调用都会路由至这个…

数学建模:数据的预处理

&#x1f506; 文章首发于我的个人博客&#xff1a;欢迎大佬们来逛逛 文章目录 数据预处理数据变换数据清洗缺失值处理异常值处理 数据预处理 数据变换 常见的数据变换的方式&#xff1a;通过某些简单的函数进行数据变换。 x ′ x 2 x ′ x x ′ log ⁡ ( x ) ∇ f ( x k )…

Linux中的scp指令

在Linux和Unix系统中&#xff0c;scp&#xff08;Secure Copy Protocol&#xff09;是一个用于通过SSH协议进行安全文件传输的命令行实用程序。与传统的cp&#xff08;copy&#xff09;命令不同&#xff0c;scp允许用户在不同的机器之间、或同一台机器的不同位置之间传输文件或…

Redis 持久化和发布订阅

一、持久化 Redis 是内存数据库&#xff0c;如果不将内存中的数据库状态保存到磁盘&#xff0c;那么一旦服务器进程退出&#xff0c;服务器中的数据库状态也会消失。所以 Redis 提供了持久化功能&#xff01; 1.1、RDB&#xff08;Redis DataBase&#xff09; 1.1.1 …

重仓“AI”的百度迎来收获季?

今年以来&#xff0c;由AIGC引发的“行业旋风”持续席卷各行各业&#xff0c;给沉闷已久的互联网赛道带来了一股暖流。这场AI旋风对于重仓押注AI的玩家而言&#xff0c;更是如同“久旱逢甘霖”&#xff0c;终于迎来了“柳暗花明”的一天。 作为重仓押注AI赛道的头部玩家&#x…

oracle 创建数据库

查询表空间的命令 select t1.name,t2.name from v$tablespace t1,v$datafile t2 where t1.ts# t2.ts#; CREATE TABLESPACE ORM_342_BETA DATAFILE /app/oracle/oradata/sysware/ORM_342_BETA.DBF size 800M --存储地址 初始大小800M autoextend on nex…

第一方支付、第二方支付、第三方支付、第三方支付是什么?

我相信关于支付行业大家多多少少都有一些自己的理解&#xff0c;但是具体的一些名词如标题中的这些&#xff0c;第一方、第二方、第三方支付&#xff0c;到底指的是什么&#xff1f; 第一方支付 也就是现金支付&#xff0c;其本质的意义就是指货币支付&#xff0c;从最早出现货…

猜拳游戏小程序源码 大转盘积分游戏小程序源码 积分游戏小程序源码

简介&#xff1a; 猜拳游戏大转盘积分游戏小程序前端模板源码&#xff0c;一共五个静态页面&#xff0c;首页、任务列表、大转盘和猜拳等五个页面 图片&#xff1a;

[pytorch]torch.cuda用法以及判断显卡是不是存在问题

常见用法&#xff1a; torch.cuda.is_available() # 查看是否有可用GPU torch.cuda.device_count() # 查看GPU数量 torch.cuda.get_device_capability(device) # 查看指定GPU容量 torch.cuda.get_device_name(device) # 查看指定GPU名称 torch.cuda.empty_cache() # 清空程序占…

gitlab配置备忘

版本 gitlab 14.6.2 gitlab备份上传到阿里云oss ### Backup Settings ###! Docs: https://docs.gitlab.com/omnibus/settings/backups.html# gitlab_rails[manage_backup_path] true # gitlab_rails[backup_path] "/var/opt/gitlab/backups"###! Docs: https://…

Linux学习--Ceph部署

前期准备 资源下载 链接: https://pan.baidu.com/s/1Yof-X-fD8kYLSmLAWFo5Ug 提取码: txj5 环境准备 主机名 IP地址 ceph1 192.168.88.11/24 ceph2 192.168.88.12/24 ceph3 192.168.88.13/24 client1 192.168.88.10/24 pubserver 192.168.88.240/24在pubserver上配置ansible…

Spring与Mybatis集成且Aop整合

目录 一、集成 1.1 集成的概述 1.2 集成的优点 1.3 代码示例 二、整合 2.1 整合概述 2.2 整合进行分页 一、集成 1.1 集成的概述 集成是指将不同的组件、部分或系统组合在一起&#xff0c;以形成一个整体功能完整的解决方案。它是通过连接、交互和协调组件之间的关系来实…

MybatisPlus-插件篇

文章目录 一、前言二、插件1、分页插件2.1.1、引入依赖2.1.1、配置分页插件2.1.3、使用分页方法 2、乐观锁插件2.1、引入依赖2.2、添加版本字段2.3、配置乐观锁插件2.4、执行更新操作 三、总结 一、前言 本文将详细介绍mybatisplus中常用插件的使用。 二、插件 1、分页插件 …

《算法竞赛·快冲300题》每日一题:“x1 == x2”

《算法竞赛快冲300题》将于2024年出版&#xff0c;是《算法竞赛》的辅助练习册。 所有题目放在自建的OJ New Online Judge。 用C/C、Java、Python三种语言给出代码&#xff0c;以中低档题为主&#xff0c;适合入门、进阶。 文章目录 题目描述题解C代码Java代码Python代码 “ x…

ADC介绍

简介&#xff1a; Successive Approximation ADC&#xff08;SAR ADC&#xff09;&#xff1a;逐次逼近ADC&#xff0c;SAR ADC。 主要用于测量电压信号。特性如下&#xff08;来自公开资料&#xff09;&#xff1a; 10bits resolutionUp to 1MS/s sampling rate4 single-en…