通信方式、点对点通信、集合通信

文章目录

    • 传统组网互联
    • 大模型组网互联:超高带宽、超低延迟、超高可靠性
    • ☆☆☆ AI计算集群互联方式:Die间、片间、集群间
    • Die间:SoC架构转向 Chilplet 异构(多Die)、UCIe标准
    • IO Die & Base Die
    • 节点内 NPU 间互联:PCIe、共享内存、私有协议直连
    • ☆☆☆ 片内互联挑战与技术壁垒
    • ☆☆☆ 节点间互联:需要跨 RDMA 的就是1个节点
    • RDMA 主要实现方式,由第三方的公司可以买到!
    • InfiniBand
    • RoCE
    • Altas 900 A2 PoD集群基础单元 - 计算节点
    • TP && PP 通信域
    • RDMA
    • ~
    • 从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理!
    • 通信实现方式:机器内通信、机器间通信
    • 通信实现方式:通讯协调
    • 通信实现方式:机器内通信:PCIe
    • 通信实现方式:机器内通信:NVLink
    • 通信实现方式:机器间通信:RDMA(直连模式)
    • 通信协调:软件篇
    • 通信协调:软件篇:MPI
    • MPI:集合通信
    • MPI:进程启动与收发数据顺序:broadcast
    • MPI:进程启动与收发数据顺序:gather
    • 通信协调:软件篇:NCCL
    • 点对点通信、集合式通信
    • 分布式训练系统
    • 集中式通信方式:一对多 broadcast
    • 集中式通信方式:一对多 scatter
    • 集中式通信方式:多对一 reduce
    • 集中式通信方式:多对一 gather
    • 集中式通信方式:多对多 all reduce(用的特别多)
    • 集中式通信方式:多对多 all reduce 的两种实现方式
    • 集中式通信方式:多对多 all reduce = reduce + broadcast (聚合到一张卡)
    • 集中式通信方式:多对多 all reduce = reduce-scatter + all-gather
    • 集中式通信方式:多对多 all gather
    • 集中式通信方式:多对多 reduce scatter
    • 集中式通信方式:多对多 all to all

传统组网互联

在这里插入图片描述


大模型组网互联:超高带宽、超低延迟、超高可靠性

在这里插入图片描述


☆☆☆ AI计算集群互联方式:Die间、片间、集群间

在这里插入图片描述

Die间:SoC架构转向 Chilplet 异构(多Die)、UCIe标准

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述


IO Die & Base Die

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
一个die 一个rank


节点内 NPU 间互联:PCIe、共享内存、私有协议直连

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
形成一个环,执行一个 all reduce、reduce together、all gather 的操作,都是要形成一个环
在这里插入图片描述

在这里插入图片描述
这一代还没有NVLink的出现


☆☆☆ 片内互联挑战与技术壁垒

在这里插入图片描述

其他AI厂商可以做AI芯片,AI芯片比较新
但是通讯这玩意儿,不是想做就能做的,国内估计只有华为能做
网络协议的适配,也需要大量的工程经验和技术积累的

Die间是已经有对应的技术标准的了
片间 AMD&谷歌提出的 UALink 协议

在这里插入图片描述

掌握 片间高速互联网络和私有协议 的公司,在AI训练服务器 形成绝对垄断的地位!
华为这几年还是能走的非常的好


☆☆☆ 节点间互联:需要跨 RDMA 的就是1个节点

在这里插入图片描述
在这里插入图片描述


RDMA 主要实现方式,由第三方的公司可以买到!

在这里插入图片描述
在这里插入图片描述__________________________

InfiniBand

在这里插入图片描述


RoCE

在这里插入图片描述
在这里插入图片描述


Altas 900 A2 PoD集群基础单元 - 计算节点

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(1)NVIDIA NVL72 是一个机柜,那么这个机柜应该就属于是一个节点
(2)可能还不是,要是 L2 NVSwitch 的话 还连接着别 NVL72 机柜,都是在NVSwitch下面,还没有跨RDMA 访问别的节点(可能是这个意思)


TP && PP 通信域

在这里插入图片描述


RDMA

在这里插入图片描述
在这里插入图片描述
(1)左边的图是TCP/IP,右边的是RDMA
(2)左边的几个蓝色方框,在传递的时候 需要经过好几次的用户的内存拷贝,对大数据执行起来会非常的缓慢,数据量越大的时候,这个延迟是很难去接受的!
(3)而RDMA新的协议,就是用户直接跳过kernel层,直接传到远端的服务器,数据绕过CPU,直接通过RDMA设备,对远端的虚拟内存直接进行访问读和写;

(4)既然是机器间通信,那么不同机器间是通过以太网连接的
(5)Q:RDMA是通过网线连接的吗?
在这里插入图片描述


~

从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理!

通信实现方式:机器内通信、机器间通信

计算机通网络通讯中最重要的两个衡量指标是:带宽、延迟

在这里插入图片描述

内存共享:比如 多个应用共享手机里面的同一块内存
PCIe:最明显的方式就是 gpu 与 cpu 之间的通信,大部分都通过之间的PCIe插槽进行的
NVLink(直连模式):GPU 与 GPU 之间进行一个互通

在这里插入图片描述
Q:不同机柜之间的GPU的访问,不是通过NVSwitch进行全互联的吗。那这个机器间的通信,都传输什么信息呢?通讯、互传数据、等待和同步相关的问题,这些信息是走什么传输的呢?
---- 如果是NVLink通信的话,它应该还是属于 机器内通信,而不是机器间通讯(TCP/IP、RDMA)

蓝色的线:通过网线进行连接
AI集群里面,可能更多的用到 RDMA 的网络模型通信


通信实现方式:通讯协调

在这里插入图片描述

通信实现方式:机器内通信:PCIe

在这里插入图片描述

通信实现方式:机器内通信:NVLink

在这里插入图片描述


通信实现方式:机器间通信:RDMA(直连模式)


通信协调:软件篇

在这里插入图片描述


通信协调:软件篇:MPI

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
OSI只是一个模型概念,并不提供具体的实现方法。实际上的网络的标准是TCP/IP

在这里插入图片描述
在这里插入图片描述

MPI:集合通信

在这里插入图片描述

在这里插入图片描述


MPI:进程启动与收发数据顺序:broadcast

在这里插入图片描述


MPI:进程启动与收发数据顺序:gather

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
优化通信框架的性能,那不就是用到了之前学习到的 二叉树的结构了

在这里插入图片描述
在这里插入图片描述


通信协调:软件篇:NCCL

在这里插入图片描述
(1)对网络拓扑进行一个感知,topo是长什么样子的,回环是怎么组织的
(2)对网络拓扑进行一个搜索,找到一个最好的通信的策略
(3)使能CUDA的kernel 对数据进行通信

在这里插入图片描述


点对点通信、集合式通信

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


在这里插入图片描述


分布式训练系统

在这里插入图片描述
在这里插入图片描述
对模型进行切分,每个服务器又需要相互通信,把一个大的网络模型切分成很多小的网络模型,每个小的网络模型之间是相互依赖的,需要就需要跨节点对数据进行同步
涉及到同步,中间的过程就需要通信,跨节点的通信,跨网络的通信,跨卡的通信;


集中式通信方式:一对多 broadcast

(1)把 NPU0 的数据同步到其他 3 份里面
在这里插入图片描述
在这里插入图片描述


集中式通信方式:一对多 scatter

在这里插入图片描述
在这里插入图片描述


集中式通信方式:多对一 reduce

在这里插入图片描述
在这里插入图片描述


集中式通信方式:多对一 gather

在这里插入图片描述
在这里插入图片描述


集中式通信方式:多对多 all reduce(用的特别多)

在这里插入图片描述
在这里插入图片描述


集中式通信方式:多对多 all reduce 的两种实现方式

在这里插入图片描述


集中式通信方式:多对多 all reduce = reduce + broadcast (聚合到一张卡)

在这里插入图片描述
在这里插入图片描述


集中式通信方式:多对多 all reduce = reduce-scatter + all-gather

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

木桶原理,强同步的!(大模型对AI集群训练的诉求:大带宽、强同步)


集中式通信方式:多对多 all gather

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述


集中式通信方式:多对多 reduce scatter

在这里插入图片描述
在这里插入图片描述


集中式通信方式:多对多 all to all

在这里插入图片描述
假设每个NPU上面都有一个A的数据,A的数据在计算完之后,希望进行通讯,都变成一块卡的数据,再进行聚类处理

在这里插入图片描述


END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/69043.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

将markdown文件和LaTex公式转为word

通义千问等大模型生成的回答多数是markdown类型的,需要将他们转为Word文件 一 pypandoc 介绍 1. 项目介绍 pypandoc 是一个用于 pandoc 的轻量级 Python 包装器。pandoc 是一个通用的文档转换工具,支持多种格式的文档转换,如 Markdown、HTM…

git:恢复纯版本库

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github:codetoys,所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的,可以在任何平台上使用。 源码指引:github源…

实现数组的扁平化

文章目录 1 实现数组的扁平化1.1 递归1.2 reduce1.3 扩展运算符1.4 split和toString1.5 flat1.6 正则表达式和JSON 1 实现数组的扁平化 1.1 递归 通过循环递归的方式,遍历数组的每一项,如果该项还是一个数组,那么就继续递归遍历&#xff0c…

npm知识

npm 是什么 npm 为你和你的团队打开了连接整个 JavaScript 天才世界的一扇大门。它是世界上最大的软件注册表,每星期大约有 30 亿次的下载量,包含超过 600000 个包(package)(即,代码模块)。来自…

SQL进阶实战技巧:如何分析浏览到下单各步骤转化率及流失用户数?

目录 0 问题描述 1 数据准备 2 问题分析 3 问题拓展 3.1 跳出率计算

【Java】位图 布隆过滤器

位图 初识位图 位图, 实际上就是将二进制位作为哈希表的一个个哈希桶的数据结构, 由于二进制位只能表示 0 和 1, 因此通常用于表示数据是否存在. 如下图所示, 这个位图就用于标识 0 ~ 14 中有什么数字存在 可以看到, 我们这里相当于是把下标作为了 key-value 的一员. 但是这…

PythonStyle MVC 开发框架

在 Python 中,MVC(Model - View - Controller,模型 - 视图 - 控制器)是一种常见的软件设计模式,它将应用程序分为三个主要部分,各自承担不同的职责,以提高代码的可维护性、可扩展性和可测试性。…

python学opencv|读取图像(五十六)使用cv2.GaussianBlur()函数实现图像像素高斯滤波处理

【1】引言 前序学习了均值滤波和中值滤波,对图像的滤波处理有了基础认知,相关文章链接为: python学opencv|读取图像(五十四)使用cv2.blur()函数实现图像像素均值处理-CSDN博客 python学opencv|读取图像(…

Java的类加载过程

类加载就是把类(通常是.class文件的形式)通过类加载器加载到 JVM 中,经过一系列的解析成可用的 class 类 二进制流的来源可能有: 编译后的.class文件 使用ASM、ByteBuddy等字节码生成工具创建的字节码 甚至可以从网络传输得到&a…

如何使用 DeepSeek 和 Dexscreener 构建免费的 AI 加密交易机器人?

我使用DeepSeek AI和Dexscreener API构建的一个简单的 AI 加密交易机器人实现了这一目标。在本文中,我将逐步指导您如何构建像我一样的机器人。 DeepSeek 最近发布了R1,这是一种先进的 AI 模型。您可以将其视为 ChatGPT 的免费开源版本,但增加…

【Linux系统】信号:再谈OS与内核区、信号捕捉、重入函数与 volatile

再谈操作系统与内核区 1、浅谈虚拟机和操作系统映射于地址空间的作用 我们调用任何函数(无论是库函数还是系统调用),都是在各自进程的地址空间中执行的。无论操作系统如何切换进程,它都能确保访问同一个操作系统实例。换句话说&am…

Windows图形界面(GUI)-QT-C/C++ - QT MDI Area

公开视频 -> 链接点击跳转公开课程博客首页 -> ​​​链接点击跳转博客主页 目录 一、概述 二、使用场景 1. 多文档编辑器 2. 多窗口应用程序 3. 多视图应用程序 三、常见样式 1. 子窗口管理 2. 布局管理 四、属性设置 1. 添加子窗口 2. 移除子窗口 3. 设置…

MotionLCM 部署笔记

目录 依赖项 humanml3d: sentence-t5-large 下载数据: 报错:No module named sentence_transformers 继续报错:from transformers.integrations import CodeCarbonCallback 解决方法: 推理相关 GitHub - Dai-W…

蓝桥与力扣刷题(141 环形链表)

题目:给你一个链表的头节点 head ,判断链表中是否有环。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,评测系统内部使用整数 pos 来表示链表尾连接到链表中的…

【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】2.29 NumPy+Scikit-learn(sklearn):机器学习基石揭秘

2.29 NumPyScikit-learn:机器学习基石揭秘 目录 #mermaid-svg-46l4lBcsNWrqVkRd {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-46l4lBcsNWrqVkRd .error-icon{fill:#552222;}#mermaid-svg-46l4lBcsNWr…

kubernetes 核心技术-Helm

随着 Kubernetes 的广泛应用,管理和部署应用程序变得越来越复杂。为了简化这一过程,Kubernetes 社区推出了 Helm 工具,它为 Kubernetes 提供了类似于 Linux 软件包管理器的功能。通过 Helm,开发者可以更轻松地打包、配置和部署应用…

VSCode设置内容字体大小

1、打开VSCode软件,点击左下角的“图标”,选择“Setting”。 在命令面板中的Font Size处选择适合自己的字体大小。 2、对比Font Size值为14与20下的字体大小。

SQL NOW() 函数详解

SQL NOW() 函数详解 引言 在SQL数据库中,NOW() 函数是一个常用的日期和时间函数,用于获取当前的时间戳。本文将详细介绍 NOW() 函数的用法、参数、返回值以及在实际应用中的注意事项。 函数概述 NOW() 函数返回当前的日期和时间,格式为 Y…

[ Spring ] Spring Boot Mybatis++ 2025

文章目录 StructureMyBatis Controller AbilitiesConfigure Plugins and RepositoriesApply Plugins and Add DependenciesMyBatis Spring PropertiesMyBatis ApplicationMyBatis BeansMyBatis MapperMyBatis Query Builder Structure this blog introduce 3 ways using mybat…

请解释 Java 中的 IO 和 NIO 的区别,以及 NIO 如何实现多路复用?

Java中的IO和NIO是两种不同的输入输出处理方式,它们在设计理念、实现方式、性能特点和应用场景上有着显著的差异。 下面我将详细解释Java中的IO和NIO的区别,以及NIO如何实现多路复用,并提供一些日常开发中的使用建议和注意事项。 Java中的I…