文章探讨了为什么大语言模型需要专门的硬件而非传统CPU。LLM本质上是数学工厂,执行大规模并行矩阵乘法运算。CPU因设计用于逻辑运算和分支决策而不适合处理这种计算密集型任务。GPU通过大规模并行核心和Tensor Core优化矩阵运算,而Google的TPU采用脉动阵列设计进一步提高效率。训练和推理有不同的硬件需求,批处理对效率至关重要。从CPU到GPU/TPU的转变代表了计算理念的根本转变。
当我们写下几行提示词与大语言模型交互时,几乎可以瞬间收到十四行诗、调试建议或复杂的分析结果。
这种以软件为中心的视角可能掩盖了一个基本事实:人工智能不仅仅是一个软件问题。它本质上是一个物理学问题,涉及电子在硅芯片中的流动,以及在内存和计算单元之间移动海量数据的挑战。
然而,像 LLM 这样复杂的 AI 工具无法仅靠 CPU 构建。这是因为 CPU 是为逻辑运算、分支决策和串行执行而设计的。而深度学习需要的是线性代数、大规模并行和概率运算。
在本文中,我们将探讨 GPU 和 TPU 如何帮助构建现代 LLM,以及它们背后的架构。
AI 是一座数学工厂
从核心来看,每个神经网络都在数十亿次地执行一个基本操作:矩阵乘法。
当我们向 LLM 提问时,我们的文字会被转换为数字,流经数千亿次乘加运算。单次通过一个 700 亿参数的模型就需要超过 140 万亿次浮点运算。
数学结构很简单。每一层执行 Y = W * X + B,其中 X 代表输入数据,W 包含学习到的参数,B 是偏置向量,Y 是输出。当我们将其扩展到数十亿参数时,我们正在进行数万亿次简单的乘法和加法运算。
这种工作负载的特殊之处在于它对并行计算的依赖。矩阵运算中的每次乘法都是完全独立的。计算第 1 行乘以第 1 列不需要等待第 2 行乘以第 2 列。我们可以将工作分配给数千个处理器,在计算过程中零通信开销。
Transformer 架构进一步放大了这种并行性。自注意力机制计算每个 token 与每个其他 token 之间的关系得分。参考一下,对于 4,096 个 token 的上下文窗口,这会创建超过 1600 万个注意力配对。每个 transformer 层执行几次主要的矩阵乘法,而一个 700 亿参数的模型可以在每次前向传递中执行数百万次这样的运算。
为什么 CPU 表现不佳
CPU 擅长需要复杂逻辑和分支决策的任务。现代 CPU 包含为不可预测的代码路径设计的复杂机制,但神经网络不需要这些功能。
分支预测机制以 93-97% 的准确率猜测条件语句的结果,消耗了大量硅片面积。然而,神经网络几乎没有分支。它们以可预测的模式数十亿次地执行相同的操作。
乱序执行重新排序指令以保持处理器在等待数据时保持忙碌。矩阵乘法具有完全可预测的访问模式,不会从这种复杂性中受益。大型缓存层次结构(L1、L2、L3)隐藏了随机访问的内存延迟,但神经网络数据在内存中顺序流动。
这意味着只有很小一部分 CPU 芯片用于算术运算。大多数晶体管预算用于管理乱序执行、分支预测和缓存一致性的控制单元。当运行 LLM 时,这些数十亿晶体管处于空闲状态,消耗功率并占据了本可以用于算术单元的空间。
除了计算效率低下之外,CPU 还面临一个更根本的限制:内存墙。这个术语描述了处理器速度与内存访问速度之间日益扩大的差距。大型语言模型非常庞大。以 16 位精度存储的 700 亿参数模型大约占用 140 GB 内存。要生成单个 token,处理器必须从内存中读取每一个参数才能执行必要的矩阵乘法。
传统计算机遵循冯·诺依曼架构,处理器和内存通过共享总线进行通信。要执行任何计算,CPU 必须获取指令、从内存检索数据、执行操作并将结果写回。处理器和内存之间这种不断的信息传输创造了计算机科学家所说的冯·诺依曼瓶颈。
无论增加核心数量还是提高时钟速度都无法解决这个问题。瓶颈不在于算术运算,而在于数据传递给处理器的速率。这就是为什么内存带宽而不是计算能力通常决定了 LLM 的性能。
GPU 如何解决这个问题
图形处理单元最初是为渲染视频游戏而设计的。渲染数百万像素的数学要求与深度学习惊人地相似,因为两者都需要大规模并行和高吞吐量的浮点运算。
NVIDIA 的 GPU 架构使用 SIMT(单指令多线程)。基本单元是一组 32 个线程,称为 warp。warp 中的所有线程共享一个指令解码器,同时执行相同的指令。这种共享控制单元节省了大量硅片面积,取而代之的是数千个算术单元。
虽然现代 CPU 有 16 到 64 个复杂核心,但 NVIDIA H100 包含近 17,000 个更简单的核心。这些核心以较低的时钟速度运行(1-2 GHz 对比 3-6 GHz),但大规模并行性补偿了较慢的单个操作。
标准 GPU 核心对单个数字执行操作,每个线程一次一个。认识到 AI 工作负载主要由矩阵操作主导,NVIDIA 从 Volta 架构开始引入了 Tensor Core。Tensor Core 是一个专门的硬件单元,在单个时钟周期内执行整个矩阵乘积累加操作。当标准核心每个周期完成一次浮点运算时,Tensor Core 立即执行涉及 64 个单独操作的 4×4 矩阵乘法(乘法步骤中的 16 次乘法和 16 次加法,加上 16 次累加)。这代表了矩阵运算吞吐量的 64 倍提升。
Tensor Core 还支持混合精度运算,这对于实际 AI 部署至关重要。它们可以接受较低精度格式(如 FP16 或 BF16,使用 FP32 一半的内存)的输入,同时以较高精度 FP32 累加结果以保持数值精度。这种组合提高了吞吐量并减少了内存需求,而不牺牲稳定模型训练和准确推理所需的精度。
为了给这数千个计算单元提供数据,GPU 使用高带宽内存(HBM)。与插在主板上单独模块上的 DDR 内存不同,HBM 由使用硅通孔(微观垂直导线)垂直堆叠在一起的 DRAM 芯粒组成。这些堆叠放置在直接邻近 GPU 芯粒的硅中介层上,最大限度地减少了数据必须传输的物理距离。
这种架构使 GPU 能够在 H100 上实现超过 3,350 GB/s 的内存带宽,比 CPU 快 20 倍以上。有了这种带宽,H100 可以在大约 0.04 秒内加载 140 GB 的模型,实现每秒 20 个或更多 token 的生成速度。这是生硬、令人沮丧的交互与自然对话节奏之间的区别。
大规模并行计算和极端内存带宽的结合使 GPU 成为 AI 工作负载的主导平台。
TPU:Google 的专业化方法
2013 年,Google 计算出如果每个用户每天仅使用语音搜索三分钟,他们就需要使用 CPU 将其数据中心容量翻倍。这导致了张量处理单元(TPU)的诞生。
请看下图:
其决定性特征是脉动阵列,一个互连算术单元的网格(256 × 256,总共 65,536 个处理器)。权重被加载到阵列中并保持固定,而输入数据水平流动。每个单元将其存储的权重与传入数据相乘,添加到垂直流动的运行总和,并将两个值都传递给邻居。
这种设计意味着中间值永远不会触及主内存。从 DRAM 读取消耗的能量大约是乘法的 200 倍。通过保持结果在相邻处理器之间流动,脉动阵列消除了大部分内存访问开销,每瓦性能比 CPU 高 30 到 80 倍。
Google 的 TPU 没有缓存、分支预测、乱序执行或 speculative prefetching(推测性预取)。这种极端的专业化意味着 TPU 无法运行通用代码,但对于矩阵运算,效率收益是巨大的。Google 还引入了 bfloat16,它使用 8 位表示指数(匹配 FP32 范围)和 7 位表示尾数。神经网络容忍低精度但需要宽范围,使这种格式成为理想选择。
结论
理解硬件差异具有直接的实际意义。
训练和推理有着根本不同的要求。
- 训练需要存储参数、梯度和优化器状态。参考一下,总内存达到参数数量的 16 到 20 倍。例如,训练具有 4050 亿参数的 LLaMA 3.1 需要 16,000 个 H100 GPU,每个 80GB。
- 推理则较为宽容。它跳过反向传播,需要的操作更少。这就是为什么我们可以在消费级 GPU 上运行 70 亿参数的模型,而这些 GPU 不足以用于训练。
批处理对效率很重要。GPU 通过同时处理多个输入来实现峰值性能。每个额外的输入都会摊销加载权重的成本。单请求推理往往无法充分利用并行硬件。
从 CPU 到 GPU 和 TPU 的转变代表了计算理念的根本转变。CPU 体现了一个逻辑和串行操作的时代,针对低延迟进行了优化。GPU 和 TPU 代表了一个通过概率运算进行数据转换的时代。它们是线性代数的专门引擎,通过压倒性的并行算术来获得结果。
AI大模型从0到精通全套学习大礼包
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!
01.从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
02.AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
03.学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
04.大模型面试题目详解
05.这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓