AI Rack架构高速互连的挑战:损耗设计与信号完整性的设计框架

 

在AI驱动的时代,系统设计已经从单一PCB的视角,逐步转向以整个rack为单位来考量。 对于信号完整性而言,焦点以不再局限于单一PCB上的损耗,而是扩展到芯片与芯片之间的端到端互连损耗(end-to-end interconnect loss)。 这种转变反映了现代高性能系统设计的新需求与挑战,也让互连损耗成为设计者无法忽视的核心课题。

比如最近大家一直在关注的GB200,Compute Tray即透过Cable Cartridge与Switch Tray高速连通,这种End-End loss(Blackwell to NVswitch)大概落在40~45dB,也是目前SerDes做Equalization的上限。

 

晶片到芯片的互连损耗可以细分为以下三个主要部分,每一部分都对整体系统性能产生重要影响:

1. 封装载板与PCB损耗

载板与PCB损耗这部分是整体讯号互连损耗的重要组成,主要包括以下几个方面:

金属损耗

金属损耗主要分成金属(通常是铜)本身的电阻效应以及表面粗糙度

铜箔电阻损耗

PCB上绝大多数的金属是铜,本身就带有些许电阻,低频时电流较为平均分布在铜箔内部,损耗较小; 高频时会有集肤效应,电流会分布在铜箔表面,电流截面积下降,导致高频电阻升高的情况下高频时损耗会上升。

 

表面粗糙度

再加上PCB铜箔的表面不会是一个完整的平面,微观来讲可以看到些许的颗粒,铜箔的这些颗粒会增加其与树脂的表面接触面积,使其结合强度变高,铜皮会较不易脱落,不过在高频时的损耗会急剧增加!

 

透过改善铜皮的表面粗糙的行为,可以改善表面粗糙度,通常以Ra或是Rz呈现,对SI工程师而言,我们较常关心的是Rz。 而依不同铜皮的表现又分成不同等级,其中有RTF(Reverse Treated Foil)、VLP(Very Low-Profile)、HVLP(Highly Very Low-Profile)、ANP(Any No-Profile)等等。

目前产业界最高档的铜箔是HVLP5,几乎已经是没有任何的Rz,可以将表面粗糙度降低许多! 不过CCL与PCB厂还在努力克服没有颗粒的铜箔对于材料拉力(Peeling)的影响,预计今年(Y2025)会有好消息。

 

 

介质损耗

PCB介质有所谓的损耗正切参数(Loss Tangent)或是所谓DF(Dissipation Factor),这两者指的是同一件事,代表材料在高频信号通过时,会有多少能量损耗(消耗成热能等)。

从电磁学的角度,介电材料会有「实部 \( \mathrm{Re}(\varepsilon) \)」与「虚部 \( \mathrm{Im}(\varepsilon) \)」的介电常数:

• 实部代表电场储存能量的能力;

• 虚部代表材料吸收并转换这些能量的损耗能力。

而 DF可以写成:

tan(δ)≈Im(ε)Re(ε)

这里 \( \delta \) 是介电损耗角。 数值越大,表示「虚部」在整个介电常数所占比重越高,也就是介质损耗越显著。

来个比喻:我们可以将介质损耗则可以比拟为水流过程中管壁吸收能量、造成水流衰减的效果。 若管壁很粗糙、吸水量大(损耗大),水流一路过去就会衰减得很厉害; 反之,若管壁光滑且不吸水(损耗小),水能保有更多原本的流量与压力。

 

辐射损耗

将输出信号电压扣除信号的反射与系统内的损耗后,剩余的能量可以视为辐射信号。 辐射讯号实际上是一种损耗,因为这些能量会直接散布到环境中。 然而,从系统SI的角度来看,我们通常不特别关注这部分损耗。 原因在于,只要系统的阻抗设计得当,辐射能量通常会被控制在非常小的范围内,对整体性能的影响可以忽略不计。

\( \text{Radiation Loss} \; =\; 1 \; -\; |S_{11}|^2 \; -\; |S_{21}|^2 \)

镀穿孔与雷射孔

在PCB设计中,我们习惯将互连(Interconnect)分为2D与3D走线两类。 2D走线通常指的是传输线,这些线路可以使用2D软件进行高效的模型化,例如 Keysight ADS 的 CILD 模块或常见的 Polar 软件,都能很好地处理这类结构。 而3D结构则包括镀穿孔(Plating Through Hole, PTH)与激光孔(Laser Via),这些结构需要借助3D电磁场模拟软件来建模,如 Cadence 的 Clarity 或 Ansys 的 HFSS。 相较于2D软件,3D模拟的分析时间更长,对技术要求也更高,并且需要较长的学习与建模周期,才能确保模型与软件设定的准确性。

 

随着产业迈向 224G-PAM4 的时代,Via 已成为设计中无法忽略的关键因素。 由于服务器或交换机主板的厚度不断增加(目前厚度即将超过6mm),Via的长度也随之变长。 同时,频率已攀升至53GHz,在这样的条件下,单一Via的损耗可能高达1.5dB至2dB,所有Via的损耗就占掉了整个通道损耗的15%左右。 更为关键的是,在目前PCB材料升级受限的情况下,Via所带来的损耗显得格外突出,对整体通道性能的影响不容忽视。 (P.S. 所有Cable损耗均包含与其连接的Connector损耗)

 

2. 连接器损耗

开头已经提到,现今的AI system是不同机柜间的连结,讯号路径上会有许多的连接器,例如GB200的Compute Tray对外就有一个Backplane连接器跟Cable cartridge对接,再利用铜缆线接到Switch Tray。 (图为Samtec的Backplane连接器,或称BP Connector)

 

这些连接器是3D的架构,设计上很仰赖3D建模的技术,且与PCB via类似,缺乏完整的reference plane,因此连接器的高频特性不容易控制,从图可以看到高频损耗抖动的非常严重! 最好的做法就是做的精小,可是会遇到机械结构较为薄弱,焊接或是组装不良的议题,相当不好搞!

 

3. 铜缆损耗

以现在的AI system来说,这部分又分成两种

  • 内部飞线(Internal Flyover Cable):例如GB200的Switch Tray内部即是用这种Amphenol的飞线。

 

  • 外部系统间连接(External Cable):例如交换机网络对连需要用到的DAC cable(Direct-Access Cable)或是类似GB200 Compute Tray与Switch Tray外部的Cable,都是属于这类型的外部连接媒介。

因为Cable具有稳定的阻抗特性、良好的reference path以及较低的材料DF,所以比PCB CCL材料的损耗还来的小很多。 对比M8等级的材料来看(例如台光电的EM892K+HVLP4铜箔),在224G-PAM4的应用上,30AWG的Cable的损耗大约是0.35dB/inch而PCB的损耗大约是1.3dB/inch,两者差别极大!

 

然而没有这么美好的事情,有好就有坏,用Cable会有几个Trade-off:

  • 成本较高:Cable本身就已经很贵了,还需要加上连接Cable的连接器的成本,所以使用内部 Cable的机台成本都较高。
  • 散热问题:因为需要内部连接器组装Cable,这些连接器会有一定的高度(通常20mm),这会影响内部的风流,使得ASIC或是GPU的散热效果变差。 当然如果走水冷(Liquid Cooling),可能是比较没差?

 

  • 组装与维修:多了内部连接器,对于系统组装一定会有所影响,毕竟多了一道工序。 且这种连接器为了做在内部,会比较精小,所以机械强度比较弱,很容易掉件,且维修时整台机台都需要开盖检查,较为麻烦!
  • 模态转换损耗:Cable结构的不均匀性(P/N Skew)会引发额外的模态转换损耗(Mode Conversion Loss),这个损耗随着数据传输速度越来越快而越难被忽视,这不只牵扯到Cable本身制造上的稳定度,还得分析当Cable转折时是否会影响到差动对两条线的均匀性, 抑或是Cable与Connector在焊接过程中的不匹配性,相当地复杂!

 

总结

随着数据传输速度不断提升,对损耗的要求也越来越严苛,讯号完整性的重要性日益凸显! 这不仅仅是对SI工程师的专业要求,从业人士也需要具备基础的理解能力。 无论是如何解读供应商提供的损耗规格,还是熟悉零组件的技术迭代,这些都成为不可或缺的能力。 此外,能够凭借专业知识提出针对性问题,例如询问Cable的P/N Skew等被设计「包装」的细节,也是未来工作的核心能力之一。

未来,我们将有机会逐一剖析如何有效控制与设计这些损耗,敬请期待!

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/903857.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

杭电oj(1180、1181)题解

目录 1180 题目 思路 问题概述 代码思路分析 1. 数据结构与全局变量 2. BFS 函数 bfs 3. 主函数 main 总结 代码 1181 题目 思路 1. 全局变量的定义 2. 深度优先搜索函数 dfs 3. 主函数 main 总结 代码 1180 题目 思路 注:当走的方向和楼梯方向一…

软件测试概念

这里写目录标题 需求开发模型软件生命周期瀑布模型螺旋模型增量模型、迭代模型敏捷模型Scrum 测试模型V模型W模型(双V模型) 需求 用户需求:没有经过合理的评估,通常就是一句话 软件需求:是开发人员和测试人员执行工作…

数字基带信号和频带信号的区别解析

数字基带信号和数字频带信号是通信系统中两种不同的信号形式,它们的核心区别在于是否经过调制以及适用的传输场景。以下是两者的主要区别和分析: 1. 定义与核心区别 数字基带信号(Digital Baseband Signal) 未经调制的原始数字信号…

Linux52 运行百度网盘 解决故障无法访问repo nosandbox 未解决:疑似libstdc++版本低导致无法运行baidu网盘

昨日参考 哦 我是root Cannot find a valid baseurl for repo: centos-sclo-rh/x86_64 没了 计划去手动下一个 还是不行 放弃 猜测是 centos7 过期了 一些依赖组件也没地方下载了 通过阿里云镜像站下载 之前安装的好像不是这个版本 还是计划用yum去下载依赖,先处…

2000-2022年上市公司数字经济专利申请数据

2000-2022年上市公司数字经济专利申请数据 1、时间:2000-2022年 2、来源:国家知识产权局 3、指标:年份、股票代码、股票简称、行业名称、行业代码、省份、城市、区县、行政区划代码、城市代码、区县代码、首次上市年份、上市状态、数字经济…

机器学习之五:基于解释的学习

正如人们有各种各样的学习方法一样,机器学习也有多种学习方法。若按学习时所用的方法进行分类,则机器学习可分为机械式学习、指导式学习、示例学习、类比学习、解释学习等。这是温斯顿在1977年提出的一种分类方法。 有关机器学习的基本概念,…

Chromium 134 编译指南 - Android 篇:安装构建依赖项(七)

1. 引言 欢迎来到《Chromium 134 编译指南》系列的第七篇文章!在前面的章节中,我们已经成功获取了Chromium源代码,并将其配置为支持Android平台。这些步骤为我们的编译之旅奠定了坚实的基础,但在开始实际编译之前,我们…

java 进阶 1.0

静态方法 static 就是能直接用,不用再new一个对象了 一般java中Math等静态类就是可以直接使用其方法 main函数里面不能包含太多的逻辑性语句,全部写成模块 写好程序之后如何测试呢? 使用junit,不能在main函数里测试 测试本身就…

中小企业MES系统详细设计

版本:V1.1 日期:2025年5月2日 一、设备协议兼容性设计 1.1 设备接入框架 #mermaid-svg-PkwqEMRIIlIBPP58 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-PkwqEMRIIlIBPP58 .error-icon{fill…

Spring Security会话管理

用户认证通过后,为了避免用户的每次操作都进行认证,可以将用户的信息保存在会话中。会话就是系统为了保持当前用户的登录状态所提供的机制,常见的有基于Session方式、基于Token方式等。Spring Security提供会话管理功能,只需要配置…

PostgreSQL数据库操作基本命令

常用操作sql 🔐 用户管理 -- 创建用户 CREATE USER username WITH PASSWORD password;-- 修改用户密码 ALTER USER username WITH PASSWORD newpassword;-- 删除用户 DROP USER username;📦 数据库操作 -- 创建数据库 CREATE DATABASE dbname;-- 删除…

[吾爱出品] 网文提取精灵_4.0

网文提取精灵 链接:https://pan.xunlei.com/s/VOPDvKljcT3EWLjpt5LeDZvfA1?pwdw8kq# 易语言写的,介意的不要下载 相对网文提取工具_2.10.02版,因为是重写界面,目前版本限制最高5线程,暂时不支持批处理。 虽然不支…

每日算法-250502

每日算法 - 2025.05.02 记录一下今天刷的几道 LeetCode 算法题。 3191. 使二进制数组全部等于 1 的最少操作次数 I 题目 思路 贪心 解题过程 遍历数组 nums。当我们遇到 nums[i] 时: 如果 nums[i] 是 1,我们不需要进行操作,因为目标是全 …

移动端开发中设备、分辨率、浏览器兼容性问题

以下是针对移动端开发中设备、分辨率、浏览器兼容性问题的 系统化解决方案&#xff0c;按开发流程和技术维度拆解&#xff0c;形成可落地的执行步骤&#xff1a; 一、基础环境适配&#xff1a;从「起点」杜绝兼容性隐患 1. Viewport 元标签标准化 <meta name"viewpor…

2025最新AI绘画系统源码 - 画图大模型/GPT-4全支持/AI换脸/自定义智能体

在AI绘画技术日新月异的2025年&#xff0c;比象AI绘画系统源码以其突破性的技术创新重新定义了数字艺术创作的边界。作为第四代AI绘画引擎&#xff0c;我们不仅集成了最先进的GPT-4o多模态画图模型&#xff0c;实现了从基础文生图到专业级艺术创作的全面进化。本系统源码经过多…

构造函数详解

构造函数的作用 构造函数的主要任务是初始化对象&#xff0c;而不是创建对象&#xff08;对象的内存空间在构造函数被调用前已经分配好&#xff09;。 构造函数特性 命名规则&#xff1a;函数名必须与类名完全相同。 返回值&#xff1a;构造函数没有返回值类型&#xff08;连…

jaffree 封装ffmpeg 转换视频格式,获取大小,时间,封面

下载 参考网址 【收藏级教程】FFmpeg音视频处理宝典&#xff1a;从入门到精通的50个实用技巧_ffmpeg教程-CSDN博客 配置环境变量 验证 重启idea开发工具 springboot maven集成 <dependency><groupId>com.github.kokorin.jaffree</groupId><artifactId&…

2505C++,wmi客户端示例

原文 #define _WIN32_DCOM #include <iostream> using namespace std; #include <comdef.h> #include <Wbemidl.h> #pragma comment(lib, "wbemuuid.lib") int main(int argc, char **argv) {HRESULT hres;//初化COM.hres CoInitializeEx(0, CO…

[面试]SoC验证工程师面试常见问题(三)

SoC验证工程师面试常见问题(三) 在 SoC 验证工程师的面试中,面试官可能会要求候选人现场编写 SystemVerilog、UVM (Universal Verification Methodology) 或 SystemC 代码,以评估其编程能力、语言掌握程度以及解决实际验证问题的能力。这种随机抽题写代码的环节通常…

HTML5+JavaScript实现连连看游戏之二

HTML5JavaScript实现连连看游戏之二 以前一篇&#xff0c;见 https://blog.csdn.net/cnds123/article/details/144220548 连连看游戏连接规则&#xff1a; 只能连接相同图案&#xff08;或图标、字符&#xff09;的方块。 连线路径必须是由直线段组成的&#xff0c;最多可以有…