学校网站怎样建设云南省城市建设培训中心网站

news/2025/10/5 0:38:14/文章来源:
学校网站怎样建设,云南省城市建设培训中心网站,flask做的网站如何上传文件,网店网站建设的步骤过程# 背景知识 大模型和分布式训练对数据的吞吐量以及并行度都有很高的要求#xff0c;NCCL就是在这个背景下诞生的。 如果你是一个只会写写Python#xff0c;调用PyTorch和Horovod的算法萌新#xff0c;可能对于分布式底层的东西不太了解#xff0c;在下岗热潮中被主管逼着…# 背景知识 大模型和分布式训练对数据的吞吐量以及并行度都有很高的要求NCCL就是在这个背景下诞生的。 如果你是一个只会写写Python调用PyTorch和Horovod的算法萌新可能对于分布式底层的东西不太了解在下岗热潮中被主管逼着转变成算子或者通讯库的搬砖工就会像我一样两眼蒙蔽。因此本文只对自己踩到的坑做一个整理如果有说错的地方那就是我说错了。 1. 从PyTorch开始理解结构 以PyTorch为例其中spmd接口下的相关定义是用于处理分布式的。但主要是处理单机多CPU情况因此我们今天只考虑多机多节点情况。 SPMDSingle Program/Multiple Data即单程序多份数据进行任务并行。SPMD的本质是对问题进行域分解它将一个大的问题区域分解成若干个较小的问题区域然后对其并行求解。 其中用于实现多节点分布式的组件有以下三个 Distributed Data-Parallel Training (DDP)RPC-Based Distributed Training (RPC)Collective Communication (c10d) 从上图可知1.6版本左右的PyTorch调用结构如下最后在ProcessGroup.hpp可以找到对NCCL、Gloo和MPI的调用。 而这些蓝色的部分就是基本的分布式通讯库他们负责实现通讯和一部分计算功能。 2. 通讯方式 已知显卡与主板通过PCIE相连任何数据都要从PCIE和CPU穿过这么做的效率肯定是很低的。 因此在GPUDirect技术出现以后我们可以把GPU通信分为GPU控制的GPU通信和CPU控制的GPU通信两种。感兴趣相关的细节可以通过此文查看【研究综述】浅谈GPU通信和PCIe P2P DMA  我们知道通信技术有很多例如DMAP2P。DMA和P2P都是一种能力而非具体的协议。 2.1 DMA P2P DMA(Direct Memory Access直接内存访问)允许在计算机主板上的设备直接把数据发送到内存中去数据搬运不需要CPU的参与。 传统内存访问需要通过CPU进行数据copy来移动数据通过CPU将内存中的Buffer1移动到Buffer2中。DMA模式可以同DMA Engine之间通过硬件将数据从Buffer1移动到Buffer2,而不需要操作系统CPU的参与大大降低了CPU Copy的开销。 通常我们也将主机称为节点。 第二代GPUDirect技术被称作GPUDirect P2PPeer to Peer重点解决的是节点内GPU通信问题。两个GPU可以通过PCIe P2P直接进行数据搬移避免了主机内存和CPU的参与。 那么一台机器中的数据搬运是DMA多台主机的DMA如何实现呢这就出现了RDMA这一协议。 2.2 RDMA RDMA Remote Direct Memory Access 意为远程直接地址访问通过RDMA本端节点可以“直接”访问远端节点的内存。所谓直接指的是可以像访问本地内存一样绕过传统以太网复杂的TCP/IP网络协议栈读写远端内存而这个过程对端是不感知的而且这个读写过程的大部分工作是由硬件而不是软件完成的。 利用机器本身的DMA能力以及网卡等其他硬件实现的远程DMA。这就和RPC远程过程调用有类似之处。 RDMA是一种host-offload, host-bypass技术允许应用程序(包括存储)在它们的内存空间之间直接做数据传输。具有RDMA引擎的以太网卡(RNIC)--而不是host--负责管理源和目标之间的可靠连接。 为了支持RDMA实现有以下三种网络协议 InfiniBand(IB)从一开始就支持RDMA的新一代网络协议。由于这是一种新的网络技术因此需要支持该技术的网卡和交换机。RDMA过融合以太网(RoCE)即RDMA over Ethernet, 允许通过以太网执行RDMA的网络协议。这允许在标准以太网基础架构(交换机)上使用RDMA只不过网卡必须是支持RoCE的特殊的NIC。互联网广域RDMA协议(iWARP)即RDMA over TCP, 允许通过TCP执行RDMA的网络协议。这允许在标准以太网基础架构(交换机)上使用RDMA只不过网卡要求是支持iWARP(如果使用CPU offload的话)的NIC。否则所有iWARP栈都可以在软件中实现但是失去了大部分的RDMA性能优势。 IB是最简单的方式其次是RoCE当然本文不做赘述有大篇讲的好的博客甚至直接看论文和文档也是可以的。NCCL已经支持这些协议。  2.3 MPI MPI有多种实现方式例如OpenMPIMPICH。 MPI 全名叫 Message Passing Interface即信息传递接口作用是可以通过 MPI 可以在不同进程间传递消息从而可以并行地处理任务即进行并行计算。NCCL中利用MPI来处理多机通讯的部分。 直接下载 #apt安装mpi sudo apt-get update sudo apt install openmpi-bin openmpi-doc libopenmpi-dev #验证是否安装成功 mpirun --version 自己编译可参考前文分布式学习 - MPICH编译与实践_mpich 编译指定 mpich cc_canmoumou的博客-CSDN博客 3. NCCL NCCL在单机多卡环境下的编译与运行参考我的前文【分布式】NCCL部署与测试 - 01_canmoumou的博客-CSDN博客 NCCL本身具备了基本的通信协议支持、环路算法、原语操作等等。 由于数据运输和计算都是在GPU上完成需要launch kernel因此阅读源码前要具备基本的CUDA知识。 3.1 NCCL 多机多卡实践 环境配置 1. 两台多卡服务器需要配置好无密钥登陆ssh以及NFS共享目录。NFS挂载方式如果我有空另外再写。 2. 检查IB设备及性能确定有一块或多块IB网卡安装nv_peer_mem驱动 3. 配置BIOS配置IOMMU等 如何检查 # check system physical memory size sudo dmidecode -t memory | grep Size: | grep -v No Module Installed | awk {sum$2}END{print sum}sudo cat /var/log/dmesg | grep -e AMD-Vi: Interrupt remapping enabled -e IOMMU enabled 若发现IOMMU被disabled请到BIOS界面更改 选择enable Intel VT for Directed I/O (VT-d)选项 或者enable IOMMU选项 4. 打开CPU高性能模式并配置网络 查看IB网络是否正常 ibstat CA mlx5_0         CA type: MT4123         Number of ports: 1         Firmware version: 20.31.1014         Hardware version: 0         Node GUID: 0xb83fd203005682a2         System image GUID: 0xb83fd203005682a2         Port 1:                 State: Active                 Physical state: LinkUp                 Rate: 200                 Base lid: 12                 LMC: 0                 SM lid: 5                 Capability mask: 0x2651e848                 Port GUID: 0xb83fd203005682a2                 Link layer: InfiniBand 5. 下载其他依赖下载NCCL源码并保证单机单卡可以运行下载mpich。 编译运行 我们通过NCCL-TEST运行程序其中NCCL原仓库代码不需要重新编译只有NCCL-TEST需要重新编译必须增添MPI_HOME并设置MPI1  # 单机编译nccl-test make CUDA_HOME/path/to/cuda NCCL_HOME/path/to/nccl# 多机编译 make CUDA_HOME/path/to/cuda NCCL_HOME/path/to/nccl MPI_HOME/path/to/mpi MPI1 将编译好的build文件放到NFS目录下这样两台机器都可以在共享目录看到此文件。 再在共享目录外设置算法拓扑(topo.txt)和图结构(graph.txt)并添加mpi_hosts文件。mpi_hosts文件内放两张机器的ip地址 # MPI CLUSTERS X.X.X.X manager slots1 X.X.X.X worker1 slots1 运行 mpirun -hostfile mpi_hosts \        -np 2 \        --allow-run-as-root \        -x LD_LIBRARY_PATHCUDA_LIB:NCCL_HOME/lib \        -x NCCL_IB_HCAIB net name:1 \        -x NCCL_DEBUGTRACE \        -x NCCL_PROTOS2 \        -x NCCL_TOPO_DUMP_FILE./topo.txt \        -x NCCL_GRAPH_DUMP_FILE./graph.txt \        nfs_share_path/mccl-tests/all_reduce_perf -b 1M -e 128M -f 2 -g 1 -t 1 请注意-np的值为mpi_hosts内各个slots之和。 使用mpich运行的时候以单机的方式运行也就是单机四卡是-g 4多机四卡的参数也是-g 4. # 总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/927727.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站建设一般用哪种语言开发wordpress 旅游网站

CNCF 全称Cloud Native Computing Foundation(云原生计算基金会),成立于 2015 年7月21日(于美国波特兰OSCON 2015上宣布),其最初的口号是坚持和整合开源技术来让编排容器作为微服务架构的一部分&#xff0…

广州手机网站定制如何网站栏目页排名

首先查看当前字符集 locale 看看有没有zh_CN.utf8 locale -a |grep CN 没有就安装 yum install -y langpacks-zh_CN 安装后再次确认配置 vi /etc/locale.conf LANG"zh_CN.UTF-8" 修改后重启即可

用windows搭建手机网站更换wordpress字体

世界上有三种钱非常奥妙,你花得越多就赚得越多。这是学校老师不会教的事,让我们看看: 第一种钱:投资自己,自我成长,学习的钱一定要花! 如果我们把世界首富比尔.盖茨从美国抓到非洲&#xff0c…

202510做题记录

202510 做题记录加粗斜体表示思考时被卡了的部分。 打 \(*\) 的表示做过的重新想(做)一遍。 打 \(^?\) 的表示看了题解。 打 ~ 的表示还没做 / 还没写上来。 特别的,\(^!\) 和 \(*^?\) 都表示做过一遍还是不会 �…

python 基础问题汇总

一、基础语法与变量:“概念混淆导致代码写错” 这是入门初期最常踩的坑,核心是对Python基础语法规则(如变量类型、运算符、字符串)的理解不透彻,导致“代码看起来对,实际跑不通”。变量类型混淆,计算/操作报错典…

网站会员方案上海企业一户式查询

1. 题目 给定仅包含来自0-9的数字的二叉树,每个根到叶路径可以表示数字。 举个例子:root-to-leaf路径1-> 2-> 3,它代表数字123,找到所有根到叶的数的总和 样例1 输入: {1,2,3} 输出: 25 解释:1/ \2 3 路径 1->2 表示…

球球大作战

本质上反映了面向对象编程逻辑、游戏开发核心流程和Python语法细节三个层面的关键点。 一、面向对象编程(类与对象)的核心问题类的结构设计疑问:Ball类的__init__方法是否必须?move、draw等方法为何需要screen参数…

建设部职业资格注册中心网站做pc网站

主要整理了N多年前&#xff08;2010年&#xff09;学习C的时候开始总结的知识点&#xff0c;好长时间不写C代码了&#xff0c;现在LLM量化和推理需要重新学习C编程&#xff0c;看来出来混迟早要还的。 1.const_cast <new_type> (expression)[1] 解析&#xff1a;const_c…

慈溪建设集团网站wordpress的主题在哪个文件夹

在C语言中&#xff0c;*p1和p1是两个不同的表达式&#xff0c;有以下区别&#xff1a; *p1&#xff1a;这是一个后缀递增运算符的组合。首先&#xff0c;*p1会取出指针p1所指向的值&#xff0c;并且对p1进行递增操作。简而言之&#xff0c;这个表达式会先取出p1指向的值&#x…

关于建设网站的书本内江规划建设教育培训中心网站

企业邮箱是专门为企业提供的电子邮件服务&#xff0c;安全性和专业性更高。在开始使用企业邮箱之前&#xff0c;很多人会有一些问题&#xff0c;比如企业邮箱需要认证吗、如何开通企业邮箱&#xff0c;以及哪款企业邮箱好。 1、企业邮箱在使用前需要认证吗&#xff1f; 答案是肯…

网站域名注册查询未备案的网站可以百度推广吗

简介 JSON Server 是一个非常实用的工具,可以让你快速搭建一个模拟 REST API。它可以基于一个 JSON 文件快速创建一个全功能的假 REST API,非常适合前端开发时做原型或 mock 数据。本文将详细介绍 JSON Server 的安装和使用方法。 安装 JSON Server 是一个 Node.js 模块,可以…

简单企业网站源码阳江网络问政

Android 8.1 OTG U盘无法显示在系统文件管理的修改_mtk 屏蔽当贝市场u盘弹框-CSDN博客 Android 8.1 客制化OTG U盘的挂载路径名称_安卓8.1 u盘挂载目录-CSDN博客

VulnHub-Raven2 靶场 wp

nmap扫描靶机ip nmap -sV 192.168.111.20 -T4 访问80端口:dirsearch来fuzz目录 dirsearch -u http://192.168.111.20:80逐个访问,发现/js/vendor/bootstrap.min.js存在版本信息 Bootstrap v4.0.0访问/vendor/继续收集…

javaScript的构造函数和java的构造函数区别

核心思想差异:Java的构造函数:基于严格的“类”(Class),像一个工业模具。一旦设计好,就按照这个模具精确地生产出一模一样的产品。JavaScript的构造函数:基于灵活的“原型”(Prototype),更像一个手工作坊。有…

黄冈网站推广软件费用是多少8090设计网站

题目&#xff1a; 给定一个候选人编号的集合 candidates 和一个目标数 target &#xff0c;找出 candidates 中所有可以使数字和为 target 的组合。candidates 中的每个数字在每个组合中只能使用一次 。 注意&#xff1a;解集不能包含重复的组合。 示例 1: 输入: ca…

天一生水 地六成之

天一生水 地六成之