DeepSeek 开源狂欢周(五)正式收官|3FS并行文件系统榨干SSD

千呼万唤始出来!在 DeepSeek 开源周 的第五天,今日正式收官!在大模型训练中,每个epoch都在与存储系统进行光速竞赛——数据加载延迟会扭曲计算时空,KVCache访问瓶颈将引发推理坍缩。DeepSeek开源的 3FS文件系统(Fire-Flyer文件系统第三个F代表File),一种利用现代SSD和RDMA网络的全部带宽的并行文件系统;正用「存储相对论」重构AI基础设施的时空连续性。Smallpond,基于3FS和DuckDB构建的轻量级数据处理框架。

图片

3FS并行文件系统

技术革命:3FS的四大维度突破

1. 存算分离架构的终极形态
  • 光子引擎:基于RDMA网络实现零拷贝数据直通,单边操作占比超92%

  • 时空折叠:三维数据分层(热/温/冷数据)动态调度,NVMe SSD吞吐利用率达98%

  • 强一致性保障:CRAQ协议实现微秒级跨节点一致性,比传统Raft快15倍

2. 性能暴力美学
  • 180节点集群:6.6 TiB/s聚合读取带宽,相当于每秒传输3部4K《阿凡达》

  • 推理加速:单节点KVCache峰值40 GiB/s,可支撑百万QPS的向量检索

  • GraySort基准:25节点3.66 TiB/min排序吞吐,比Hadoop快17倍

全场景性能实测

1. 峰值吞吐量

180节点集群压测 实现 6.6 TiB/s聚合读取吞吐:

  • 存储节点:180个,每节点配备2×200Gbps InfiniBand网卡及16块14TiB NVMe SSD。

  • 客户端节点:500+个,每节点配置1×200Gbps InfiniBand网卡。

  • 场景:大块数据读取测试,伴随训练任务产生的背景流量。

图片

2. GraySort基准
  • 集群配置:

    • 25个存储节点(每节点2个NUMA域,2×400Gbps网卡)。

    • 50个计算节点(192物理核心,2.2 TiB内存,1×200Gbps网卡)。

  • 结果:在 30分14秒 内完成 110.5 TiB数据排序(8192个分区),平均吞吐达 3.66 TiB/分钟。

    图片

    图片

3. KVCache性能
  • 读取吞吐:单客户端峰值达 40 GiB/s。

  • 垃圾回收(GC)效率:在推理过程中展示高IOPS的GC操作性能。

图片

图片

快速开始

从 GitHub 克隆 3FS 仓库:

git clone https://github.com/deepseek-ai/3fs

当 deepseek-ai/3fs 克隆到本地文件系统后,运行以下命令来检出子模块:

cd 3fsgit submodule update --init --recursive./patches/apply.sh

根据Ubuntu版本安装所需的依赖项:

# for Ubuntu 20.04.apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libprocps-dev libdwarf-dev libunwind-dev \ libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
libgoogle-perftools-dev google-perftools libssl-dev ccache libclang-rt-14-dev gcc-10 g++-10 libboost1.71-all-dev
# for Ubuntu 22.04.apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libprocps-dev libdwarf-dev libunwind-dev \libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
libgoogle-perftools-dev google-perftools libssl-dev ccache gcc-12 g++-12 libboost-all-dev

确保安装了libfuse 3.16.1或更新版本,FoundationDB 7.1或更新版本,以及Rust工具链。

在构建目录中构建3FS:

cmake -S . -B build -DCMAKE_CXX_COMPILER=clang++-14 -DCMAKE_C_COMPILER=clang-14 -DCMAKE_BUILD_TYPE=RelWithDebInfo -DCMAKE_EXPORT_COMPILE_COMMANDS=ON
cmake --build build -j 32

Smallpond轻量级数据处理框架

Smallpond 是基于 3FS 并行文件系统 和 DuckDB 构建的轻量级数据处理框架,专为 AI 数据流水线设计,致力于简化海量数据的处理与分析流程。其核心目标是提供 声明式编程接口 和 极致性能优化,覆盖从数据预处理到模型推理的全场景需求。

性能亮点

  • 1TB 数据排序:37 秒完成(比 Apache Spark 快 83 倍)

  • ANN 向量检索:单节点 9.8 亿向量/秒

  • 流水线延迟:亚毫秒级动态反向压力控制

应用场景

  • 训练数据预处理:TB 级数据清洗/特征工程加速

  • 推理结果后处理:实时向量检索与聚合分析

  • 模型监控:流式日志分析与异常检测

快速开始​​​​​​​

# Download example datawget https://duckdb.org/data/prices.parquetimport smallpond# Initialize sessionsp = smallpond.init()# Load datadf = sp.read_parquet("prices.parquet")# Process datadf = df.repartition(3, hash_by="ticker")df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df)# Save resultsdf.write_parquet("output/")# Show resultsprint(df.to_pandas())

OpenCSG 社区开源加速计划

作为OpenCSG社区的一部分,我们一直致力于为开发者提供优质的开源资源。此次DeepSeek的3FS和Smallpond项目已同步到OpenCSG社区,欢迎大家访问并使用该项目。

3FS项目原始GitHub地址:

https://github.com/deepseek-ai/3FS

Smallpond项目原始GitHub地址:

https://github.com/deepseek-ai/smallpond

OpenCSG社区同步的3FS项目地址:

https://opencsg.com/codes/deepseek-ai/deepseek-3FS

OpenCSG社区同步的 Smallpond项目地址:

https://opencsg.com/codes/deepseek-ai/smallpond

如果您遇到网络问题无法快速访问GitHub,可以通过我们的服务轻松同步该项目,确保不受网络限制影响。

OpenCSG为您提供了DeepSeek R1和V3系列模型的万兆网络高速下载服务,帮助您快速获取所需模型,避免因文件过大造成下载困难。

DeepSeek R1下载:

https://opencsg.com/models/DeepseekAI/DeepSeek-R1 

DeepSeek V3下载:

https://opencsg.com/models/deepseek-ai/DeepSeek-V3

同时,我们还提供了各种蒸馏版、量化版,您可以访问我们的awesome DeepSeek合集来找到最适合的模型版本。

awesome-deepseek-r1-collection:

https://opencsg.com/collections/85/ 

awesome-deepseek-v3-collection:

https://opencsg.com/collections/86/ 

awesome-deepseek-Janus-collection:

https://opencsg.com/collections/87/

开源狂欢 继续期待

OpenAI 社区与您同行 🤝

OpenAI 社区 将继续关注并为您带来 DeepSeek 的最新开源成果,让我们共同期待更多激动人心的技术创新!

DeepSeek开源周汇总​​​​​​​

DeepSeek开源周,连更5天,终于收官。

  • Day 1: FlashMLA 🔥 自研 MLA 架构,H800 算力榨干!

  • Day 2: DeepEP 🚀 首个 MoE 训练/推理 EP 通信库,All-to-All 加速!

  • Day 3: DeepGEMM 💡 通用矩阵乘法库,300 行代码解锁 V3/R1 性能秘籍!

  • Day 4: 连开三源! 🌊 双向流水线并行 DualPipe、MoE 负载均衡 EPLB,性能分析数据一网打尽!

  • Day 5: 3FS & Smallpond 🏞️ 高效分布式文件系统 + 数据处理框架,数据处理更轻松!

DeepSeek 这波操作,够 Open!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/70884.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

特征工程中的三大向量化工具详解

特征工程中的三大向量化工具详解 在文本处理和特征工程中,TfidfVectorizer、CountVectorizer 和 DictVectorizer 是常用的工具,用于将原始数据转换为机器学习模型可用的数值特征。以下是它们的核心区别、用法及示例: 1. CountVectorizer&…

C++ Qt常见面试题(4):Qt事件过滤器

在 Qt 中,事件过滤器(Event Filter)提供了一种机制,可以拦截并处理对象的事件(如鼠标事件、键盘事件等),在事件到达目标对象之前对其进行预处理。事件过滤器通常用于以下场景: 捕获和处理特定的事件(如鼠标点击、按键等);对事件进行筛选或修改;实现全局的事件监听功…

TCP基本入门-简单认识一下什么是TCP

部分内容来源:小林Coding TCP的特点 1.面向连接 一定是“一对一”才能连接,不能像 UDP 协议可以一个主机同时向多个主机发送消息,也就是一对多是无法做到的 2.可靠的 无论的网络链路中出现了怎样的链路变化,TCP 都可以保证一个…

PING命令TTL解析

在 ping 命令中,TTL(Time to Live,生存时间) 是 IP 数据包的核心字段之一,用于控制数据包在网络中的生命周期。以下是针对 TTL 的简明解析: 1. TTL 的核心作用 防循环机制:TTL 是一个计数器&a…

PySide(PyQT)重新定义contextMenuEvent()实现鼠标右键弹出菜单

在 PySide中,contextMenuEvent() 是 QWidget 类(以及继承自它的所有子类)的一个事件处理方法,主要用于处理上下文菜单事件,也就是当用户在控件上右键点击时触发的事件。 • 通过重新定义contextMenuEvent()来实现自定…

GitHub SSH连接问题解决指南

🔍 GitHub SSH连接问题解决指南 问题描述 遇到错误:ssh: connect to host github.com port 22: Connection refused 说明您的网络环境无法访问GitHub的SSH端口22,常见原因: 防火墙/网络运营商限制(国内常见&#xf…

Go红队开发—并发编程

文章目录 并发编程go协程chan通道无缓冲通道有缓冲通道创建⽆缓冲和缓冲通道 等协程sync.WaitGroup同步Runtime包Gosched()Goexit() 区别 同步变量sync.Mutex互斥锁atomic原子变量 SelectTicker定时器控制并发数量核心机制 并发编程阶段练习重要的细节端口扫描股票监控 并发编程…

RabbitMQ 的介绍与使用

一. 简介 1> 什么是MQ 消息队列(Message Queue,简称MQ),从字面意思上看,本质是个队列,FIFO先入先出,只不过队列中存放的内容是message而已。 其主要用途:不同进程Process/线程T…

常用的AI文本大语言模型汇总

AI文本【大语言模型】 1、文心一言https://yiyan.baidu.com/ 2、海螺问问https://hailuoai.com/ 3、通义千问https://tongyi.aliyun.com/qianwen/ 4、KimiChat https://kimi.moonshot.cn/ 5、ChatGPThttps://chatgpt.com/ 6、魔塔GPT https://www.modelscope.cn/studios/iic…

在自己的数据上复现一下LlamaGen

git仓库:https://github.com/FoundationVision/LlamaGen 数据集准备 如果用ImageFolder读取,则最好和ImageNet一致。 data_path/class_1/image_001.jpgimage_002.jpg...class_2/image_003.jpgimage_004.jpg......class_n/image_005.jpgimage_006.jpg.…

Go入门之接口

type Usber interface {start()stop() } type Phone struct {Name string }func (p Phone) start() {fmt.Println(p.Name, "启动") } func (p Phone) stop() {fmt.Println(p.Name, "关机") } func main() {p : Phone{Name: "华为手机",}var p1 U…

【数据结构进阶】哈希表

🌟🌟作者主页:ephemerals__ 🌟🌟所属专栏:数据结构 目录 前言 一、哈希表的概念 二、哈希函数的实现方法 1. 直接定址法 2. 除留余数法 三、哈希冲突 1. 开放定址法(闭散列&#xff0…

《深度学习实战》第4集:Transformer 架构与自然语言处理(NLP)

《深度学习实战》第4集:Transformer 架构与自然语言处理(NLP) 在自然语言处理(NLP)领域,Transformer 架构的出现彻底改变了传统的序列建模方法。它不仅成为现代 NLP 的核心,还推动了诸如 BERT、…

高效管理 React 状态和交互:我的自定义 Hooks 实践

高效管理 React 状态和交互:自定义 Hooks 实践 在 React 中,Hooks 是一种使我们能够在函数组件中使用状态和副作用的强大工具。随着项目的增大,重复的逻辑可能会出现在多个组件中,这时使用自定义 Hooks 就非常合适。它们帮助我们…

Exoplayer(MediaX)实现音频变调和变速播放

在K歌或录音类应用中变调是个常见需求,比如需要播出萝莉音/大叔音等。变速播放在影视播放类应用中普遍存在,在传统播放器Mediaplayer中这两个功能都比较难以实现,特别在低版本SDK中,而Exoplayer作为google官方推出的Mediaplayer替…

Meta最新研究:从单张照片到3D数字人的革命性突破

随着人工智能技术的发展,3D建模和虚拟人物生成逐渐变得更加普及和高效。Meta(前身为Facebook)的最新研究成果展示了如何仅通过一张普通手机拍摄的照片就能生成高质量、全方位的3D数字人。这项技术不仅适用于虚拟试衣、游戏角色建模,还能广泛应用于AR/VR内容生成等领域。本文…

软件供应链安全工具链研究系列——RASP自适应威胁免疫平台(上篇)

1.1 基本能力 RASP是一种安全防护技术,运行在程序执行期间,使程序能够自我监控和识别有害的输入和行为。也就是说一个程序如果注入或者引入了RASP技术,那么RASP就和这个程序融为一体,使应用程序具备了自我防护的能力,…

2025-02-27 学习记录--C/C++-PTA 7-29 删除字符串中的子串

合抱之木&#xff0c;生于毫末&#xff1b;九层之台&#xff0c;起于累土&#xff1b;千里之行&#xff0c;始于足下。&#x1f4aa;&#x1f3fb; 一、题目描述 ⭐️ 二、代码&#xff08;C语言&#xff09;⭐️ #include <stdio.h> // 引入标准输入输出库&#xff0c…

Redis---字符串SDS(简单动态字符串)底层结构

文章目录 什么是SDS&#xff08;简单动态字符串&#xff09;SDS结构SDS的优点O(1) 时间复杂度获取字符串长度避免缓冲区溢出减少内存重分配次数二进制安全兼容C语言字符串函数 SDS的操作总结 什么是SDS&#xff08;简单动态字符串&#xff09; redis是由C语言编写的&#xff0…

Elasticsearch:使用阿里云 AI 服务进行嵌入和重新排名

作者&#xff1a;来自 Elastic Toms Mura 将阿里云 AI 服务功能与 Elastic 结合使用。 更多阅读&#xff0c;请参阅 “Elasticsearch&#xff1a;使用阿里 infererence API 及 semantic text 进行向量搜索”。 在本文中&#xff0c;我们将介绍如何将阿里云 AI 功能与 Elastics…