网页制作与网站建设实战大全 视频无锡网站建设制作

web/2025/9/29 11:31:00/文章来源:
网页制作与网站建设实战大全 视频,无锡网站建设制作,桂林论坛网app,网站专题策划页面怎么做芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”#xff0c;并声称其在AI大语言模型#xff08;LLM#xff09;推理性能方面击败了NVIDIA最新的B200 GPU#xff0c;AI性能达到了H100的20倍。这也意味着Sohu芯片将可以大幅降低现有AI数据…芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”并声称其在AI大语言模型LLM推理性能方面击败了NVIDIA最新的B200 GPUAI性能达到了H100的20倍。这也意味着Sohu芯片将可以大幅降低现有AI数据中心的采购成本和安装成本。 目前Etched公司已就其Sohu芯片的生产与台积电4nm工艺展开直接合作并且已从顶级供应商处获得足够的 HBM 和服务器供应以快速提高第一年的生产能力。 一些早期客户已经向Etched公司预订了数千万美元的硬件。 一、AI性能超过NVIDIA H100的20倍是如何做到的 据Etched公司介绍Sohu是世界上第一个基于Transformer架构的ASIC。 根据Etched公司披露的数据显示一台配备了8颗Sohu芯片的服务器每秒可以处理超过 500,000 个 Llama 70B Token达到了同样配备8张NVIDIA H100 GPU加速卡的服务器的20倍。 同样也远远超过了配备8张NVIDIA最新的B200 GPU加速卡的服务器约10倍。 基准测试针对的是 FP8 精度的 Llama-3 70B无稀疏性、8x 模型并行、2048 输入/128 输出长度。使用 TensorRT-LLM 0.10.08最新版本计算的 8xH1008xGB200 的数字是估算的。 Etched公司表示Sohu速度比NVIDIA的最新一代Blackwell架构的B200 GPU还要快一个数量级而且价格更便宜。可以帮助客户构建 GPU 无法实现的产品。 不过这里还是要强调以下虽然Sohu的AI性能要比NVIDIAGPU更好但这是有一个前提的因为Sohu是专为基于Transformer架构的大模型定制的所以其也仅支持基于Transformer架构的大模型加速。 “通过将Transformer架构集成到我们的芯片中虽然无法运行大多数传统的 AI 模型比如为 Instagram 广告提供支持的 DLRM、像 AlphaFold 2 这样的蛋白质折叠模型、像 Stable Diffusion 2 这样的旧的图像模型以及CNN、RNN 或 LSTM等模型但是针对基于Transformer架构的大模型Sohu将是有史以来最快的AI芯片没有哪个芯片能够与之匹敌。”Etched公司说道。 1、更高的计算利用率 由于Sohu只运行Transformer这一种类型的算法因此可以删除绝大多数控制流逻辑从而拥有更多数学计算逻辑。因此Sohu的 FLOPS 利用率超过 90%而使用 TRT-LLM 的GPU上 FLOPS 利用率约为 30%。 虽然NVIDIA H200 拥有 989 TFLOPS 的 FP16/BF16 计算能力无稀疏性这无疑是非常强大的甚至比谷歌的新 Trillium 芯片还要好。 但NVIDIA已经发布的B200的计算能力仅高出25%每个芯片 1,250 TFLOPS。这是由于 GPU 的绝大部分区域都用于可编程性因此专注于 Transformer 可以让芯片进行更多的计算。 比如构建单个 FP16/BF16/FP8 乘加电路需要 10,000 个晶体管这是所有矩阵数学的基石。NVIDIA H100 SXM 有 528 个张量核心每个都有4 x 8 × 16FMA 电路。 因此NVIDIA H100 有 27 亿个专用于张量核心的晶体管。但是 H100 拥有 800 亿个晶体管这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法 这是NVIDIA和其他灵活的 AI 芯片经过深思熟虑的设计决定的。如果想要支持所有类型的模型比如CNN、LSTM、SSM 等那么没有比这更好的设计了。 而Etched公司的Sohu芯片仅支持运行Transformer架构的AI大模型这使得其可以在芯片上安装更多的 FLOPS且无需降低精度或稀疏性。 2、提升内存带宽利用率 通常来说AI推理会受到内存带宽的限制计算的限制相对较小。但是事实上对于像Llama-3这样的现代模型来说需要更高的计算力来提升带宽的利用率。 如果使用NVIDIA和 AMD 的标准基准2048 个输入标记和 128 个输出标记。大多数 AI 产品的提示比完成时间长得多即使是新的 Claude 聊天应用在系统提示中也有 1,000 多个标记。 在 GPU 和Sohu上推理是分批运行的。每个批次加载一次所有模型权重并在批次中的每个标记中重复使用它们。 通常大语言模型输入是计算密集型的而输出是内存密集型的。当我们将输入和输出标记与连续批处理相结合时工作负载变得非常计算密集型。 以下是大语言模型连续批处理的示例。这里我们运行具有四个输入标记和四个输出标记的序列每种颜色都是不同的序列。 我们可以扩展同样的技巧来运行具有 2048 个输入标记和 128 个输出标记的 Llama-3-70B。让每个批次包含一个序列的 2048 个输入标记和 127 个不同序列的 127 个输出标记。 如果我们这样做每个批次将需要大约(2048 127) × 70B params × 2 bytes per param 304 TFLOPs而只需要加载70B params × 2 bytes per param 140 GB模型权重和大约127 × 64 × 8 × 128 × (2048 127) × 2 × 2 72GBKV缓存权重。这比内存带宽要多得多。 NVIDIA H200需要6.8 PFLOPS的计算才能最大限度地利用其内存带宽。这是在100%的利用率下——如果利用率为30%将需要3倍的计算量。 由于Sohu拥有如此之多的计算能力且利用率极高因此可以运行巨大的吞吐量而不会出现内存带宽瓶颈。 3、 软件问题不再是一场噩梦 在 GPU 和 TPU 上通常 软件开发是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片AMD、英特尔、AWS 等在软件上总共花费了数十亿美元但收效甚微。 但由于Etched公司的Sohu只运行Transformers因此开发人员只需要为 Transformer 编写 软件 大多数运行开源或内部模型的公司都使用特定于 Transformer 的推理库如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。 这些框架非常僵化 ——虽然你可以调整模型超参数但实际上不支持更改底层模型代码。但这没关系因为所有 Transformer 模型都非常相似甚至是文本/图像/视频模型调整超参数就是你真正需要的。 虽然这支持了 95% 的 AI 公司但最大的 AI 实验室还是采用定制化。他们有工程师团队手动调整 GPU 内核以挤出更多的利用率逆向工程哪些寄存器对每个张量核心的延迟最低。 Etched公司表示“有了Sohu您不再需要进行逆向工程。因为我们的 软件从驱动程序到内核再到服务堆栈都将是开源的。如果您想实现自定义转换器层您的内核向导可以自由地这样做。” 4、成本优势 对于目前的AI基础市场运营商来说NVIDIA的AI GPU是最为高昂的一项投资其H100 80G版本的价格高达3万美元即便是便宜的英特尔Gaudi 3 的价格也要15,650美元左右。 现在一座大型的AI数据中心的建设已经达到了数百亿美元甚至传闻微软和OpenAI正计划推出被称为“星际之门”Stargate的AI超级计算机用来为OpenAI提供更强的算力支持该项目的总成本或将超过1150亿美元。显然这当中NVIDIAAI GPU将会占据相当大的一部分成本。 并且这些高能耗的GPU还将会带来庞大的能源供应支出按照现有的发展速度很多地区的能源供应已经不足以支撑大型AI数据中心的建设互联支出和散热支出。 如果一颗Etched的Sohu芯片就能够代替20颗NVIDIA H100芯片那么这无疑将会带来巨大的采购及建设成本和运营成本的降低。 二、专用芯片替代GPU已不可避免 在Etched看来近年来虽然GPU性能得到了增长但是实际上并没有变得更好因为主要是通过更先进的制程工艺以及更大的芯片面积来实现的。 近四年来GPU芯片单位面积的计算能力 (TFLOPS) 几乎保持不变。比如NVIDIA的GB200、AMD的MI300、英特尔的Gaudi 3 和亚马逊的Trainium2 几乎都将两块芯片算作称一张加速卡以实现“双倍”性能。 面对越来越庞大的大语言模型对于AI算力需求的快速增长GPU芯片在摩尔定律放缓以及单位面积AI算力提升放缓的背景之下已经难以满足需求因此提高性能的唯一方法就是采用专用芯片。 Etched公司指出在Transformer架构的模型统治世界之前许多公司都构建了灵活的 AI 芯片和 GPU 来处理数百种不同的算法模型。 比如NVIDIA的GPU、谷歌的TPU、亚马逊的 Trainium、AMD的MI系列加速器、英特尔的Gaudi加速器、Graphcore 的 IPU、SambaNova SN 系列芯片、Cerebras的CS系列晶圆级AI芯片、Groq的GroqNode、Tenstorrent 的 Grayskull、D-Matrix 的 Corsair、寒武纪的思源等。 但是几乎没有厂商制造过专门针对Transformer架构算法的专用 AI 芯片 (ASIC)。因为一个芯片项目至少将花费 5000 万到 1 亿美元需要数年时间才能投入生产。 如果真的一个特定算法模型推出专用的AI芯片很可能在这期间由于新的更优秀算法架构出现而使得原来的专用的AI芯片不再有效这将会没有市场。 但是现在情况变了Transformer 架构的算法模型市场规模正在迅速增长。在 ChatGPT 出现之前Transformer 推理的市场规模约为 5000 万美元而现在已达到数十亿美元。 所有大型科技公司都使用 Transformer 架构的模型比如OpenAI、谷歌、亚马逊、微软、Meta 等。 另外AI算法经过多年的发展已经开始出现架构上的融合趋势。AI模型过去发展很快因此可能每个几个月就会有新的AI模型出来。 但是自GPT-2以来最先进的模型架构几乎保持不变不论是OpenAI 的 GPT 系列、Google 的 PaLM、Facebook 的 LLaMa甚至 Tesla FSD 都是基于Transformer架构。 在此背景之下如果算法模型架构开始趋于稳定那么想要进一步提升算力专拥的ASIC芯片将会是很好的选择。 特别是在目前基于GPU的AI训练和推理基础设施成本超过100亿美元时这样高昂的成本的压力之下专用的AISC是不可避免的因为1%的改进就足以覆盖专用AISC的成本。 事实上在特定算法模型上ASIC 的速度可能会比 GPU 快几个数量级。比如当针对比特币矿机的AISC芯片于 2014 年进入市场时传统的利用GPU 来“挖矿”的做法很快被抛弃因为使用AISC比使用GPU来挖掘比特币更便宜。 显然在AI算法模型基础架构开始趋于稳定GPU算力提升遭遇瓶颈以及成本越来越高的情况下人工智能领域可能也将会发生同样的事情。这也正是Etched公司下重注推出基于Transformer架构专用的AISC芯片 “Sohu”的原因。 三、对于未来的一场豪赌 与NVIDIA等头部的AI公司一样Etched公司也预测在五年内AI模型在大多数标准化测试中将变得比人类更聪明。 Etched公司进一步指出 Meta训练的 Llama 400B2024 SoTA比大多数人类都聪明所用的计算量比 OpenAI 在 GPT-22019 SoTA上所用的计算量要高出 50,000 倍。通过为人工智能模型提供更多计算力和更好的数据它们会变得更聪明。 规模化将是未来几十年来唯一持续有效的秘诀每家大型人工智能公司谷歌、OpenAI / 微软、Anthropic / 亚马逊等都将在未来几年投入超过 1000亿美元来保持规模的增长。我们正处于有史以来最大规模的基础设施建设中。 OpenAI 首席执行官Sam Altman此前就曾表示“规模化确实是一件好事。当我们在太阳周围建造出戴森球时我们就可以讨论是否应该停止规模化但在此之前不能停止。” Anthropic 首席执行官 Dario Amodei也表示“我认为 我们的规模可以扩大到 1000 亿美元我们将在几年内实现这一目标。” 不过如果按照现在的AI数据中心算力再扩大 1,000 倍将会面临非常昂贵的成本。下一代数据中心的成本将超过一个小国一年的GDP。按照目前的速度现有的硬件、电网和资金投入都跟不上需求。 Etched公司表示“我们并不担心数据耗尽。无论是通过合成数据、注释管道还是新的 AI 标记数据源我们都认为数据问题实际上是推理计算问题。Meta CEO Mark Zuckerberg、Anthropic CEO Dario Amodei、 Google DeepMind CEO Demis Hassabis 似乎都同意这一观点。” 基于这样的发展趋势Etched公司认为未来能够获胜的大模型一定会是那些能够在硬件上运行速度最快、成本最低的模型。 Transformer 功能强大、实用且利润丰厚足以在替代方案出现之前主宰每个主要的 AI 计算市场。 目前Transformer 正在为每款大型 AI 产品提供动力从代理到搜索再到聊天。很多AI 实验室已投入数亿美元进行研发以优化 GPU 以支持 Transformer。 并且当前的和下一代最先进的大模型也都是 Transformer架构的。 随着这些大模型的规模在未来几年内所需要的硬件资源从 10 亿美元扩大到 100 亿美元再到 1000 亿美元测试新架构的风险也随之飙升。 与其重新测试缩放定律和性能不如花时间在 Transformer 之上构建功能例如多标记预测等。 当今的很多 软件堆栈也针对 Transformer 进行了优化。每个流行的库TensorRT-LLM、vLLM、Huggingface TGI 等都有用于在 GPU 上运行 Transformer 架构模型的特殊内核。 许多基于Transformer 构建的功能在替代方案中不易获得支持例如推测解码、树搜索。 所以未来的硬件堆栈也将持续针对 Transformer 进行优化。比如NVIDIA的 GB200 特别支持 TransformerTransformerEngine。 在Etched公司看来Transformer架构就是未来“如果我们猜对了Soho将改变世界。这就是我们下注的原因。”Etched公司在网站上写道。 在2022年的时候Etched公司就已经开始下注开始研发基于Transformer架构的Sohu芯片当时ChatGPT还没有推出图像和视频生成模型是 U-Nets自动驾驶汽车由 CNN 驱动而 Transformer 架构并未无处不在。显然这是一场豪赌。 虽然现在看来Sohu可以支持所有的Transformer架构的AI大模型比如OpenAI的GPT、Sora谷歌的Gemini、Stability AI公司的Stable Diffusion 3 等但是在两年前这些模型都还没有出现。 如果Transformer架构的AI大模型没有成为主流再加上无法支持CNN、RNN 、LSTM等传统模型以及SSM、RWKV 或其他的全新架构的AI大模型那么Sohu将会毫无用处。 幸运的是从目前来看形势已经对Etched公司有利。从语言到视觉每个领域的顶级模型现在都是基于Transformer架构的。 这种融合不仅验证了Etched公司下对了赌注也有望使Sohu成为十年来最重要的硬件项目。 “像 Sohu 这样的 ASIC 芯片进入市场标志着进入一条不归路。其他Transformer “杀手”要想成功需要在 GPU 上的运行速度需要比 Transformer 在 Sohu 芯片上的运行速度更快。 如果发生这种情况我们也会为此构重新建一个 ASIC”Etched公司非常坚定的说道。 最后说一句Etched公司的看法与芯智讯在多年前所写的《NVIDIA的AI盛世危机》所表达的核心观点类似即GPU并是不专为处理特定AI算法所设计的其优势在于比其他AI芯片更通用可以适应各种AI算法但是当未来AI算法的演进开始趋于稳定时那么届时专用的面向特定算法的更高效的ASIC芯片无疑将会更具优势。 现在越来越多的云服务厂商都有推出自研的云端AI芯片也正是顺应这一趋势。 感谢大家花时间阅读我的文章你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容请多多关注我的动态

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/83872.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

成都电子商务网站建站二手交易网站怎么做

文章目录 Introlog 及结论代码 Intro 界面设计:点击左侧按钮,会将右侧 青色的RightFragment 替换成 黄色的AnotherRightFragment,而这两个 Fragment 的生命周期方法都会打印日志。 所以只要看执行结果中的日志,就可以知道 Fragme…

专业3合1网站建设北京百度seo工作室

文章目录 🍒题目一 69. x 的平方根🍒解法一🍒解法二🍒题目二 70. 爬楼梯🍒解法一 🍒题目一 69. x 的平方根 🍒解法一 class Solution(object):def mySqrt(self, x):""":type x:…

上海产品网站建设semester at sea

GUI编程 04 贪吃蛇小游戏 4.2 第二步:绘制静态的小蛇 现在绘制静态的小蛇(即小蛇初始位置),并且完善游戏默认初始状态。这一步还在GamePanel类中实现。 首先,定义了小蛇的数据结构, //定义蛇的数据结构int length; //小蛇总长…

女子医院网站设计怎么做做网站需要注意的

今天小站来和各位聊聊date这个熟词。说起date,这可是工作生活中一个极其常用的单词。无论是为下次工作会议定个日期,还是为即将举行的婚礼定个日子,都可以用“fix/set a date for sth”来表示。在沃尔玛等超市购物,经常可以看到食…

网站建设推荐北京华网天下宁波自助建站公司

图的深度遍历 Time Limit: 1000MS Memory Limit: 65536KBSubmit StatisticProblem Description 请定一个无向图,顶点编号从0到n-1,用深度优先搜索(DFS),遍历并输出。遍历时,先遍历节点编号小的。Input 输入第一行为整数n&#xff…

成都手机网站建深圳企业做网站公司哪家好

云虚拟主机是一款虚拟主机产品,云虚拟主机是由云计算与虚拟主机共同产生的,接下来小编就带领大家一起来了解一下云虚拟主机都有哪些作用吧! 云虚拟主机能够通过在多个服务器上分散虚拟机实例,来提高服务器的可用性和冗余备份&…

长沙3合1网站建设网站里的搜索怎么做

致伤工具的推断一直是法医工作中的热点和难点。由于作用位置、作用方式的不同,相同的致伤工具在人体组织上会形成不同的损伤形态,不同的致伤工具也可能形成相同的损伤形态。致伤工具品种繁多、形态各异,但大致可分为两类:锐器&…

网站图片要求世界优秀摄影作品网站

字符串的特点: 1.String是java定义好的一个类,定义在java.lang包里面,所以使用的时候是不需要进行导包的 2.java程序中的所有字符串文字,都被实为此类的对象。也就是说当我们就算是进行赋值,这个也会创造…

网站 解决负载wordpress怎么给产品设置分类

关于html中table表格tr,td的⾼度和宽度 做⽹页的时候经常会遇到各种各样的问题,经常遇到的⼀个就是会碰到表格被内容撑开的问题。 设置table样式为 table-layout: fixed; 宽度可以了,但是高度会被撑高。怎么设置都不行,只能给这个td标签单独…

北京西站附近的景点有哪些故城建设银行网站

java 8 新功能详解注意:确保还检查了我们的详细教程Java 8 Features – ULTIMATE Guide 。 Jdk 1.8(又名Java 8)今天发布,这意味着它的通用发布版本已经公开发售,开发人员可以从早期版本转换为经过测试的版本以用于生…

虚拟网站多少钱百度广告投放价格表

一、Why(Research Background) 网络流量分类根据协议(如超文本传输协议或域名系统)或应用程序(如脸书或Gmail)对流量类别进行分类。其准确性是一些网络管理任务(如服务质量控制、异常检测等)的关键基础。为了进一步提高流量分类的准确性,最近的研究引入了基于深度学习的方法…

电子商务网站的数据库怎么做成都设计公司排行榜

纯虚函数 1.1纯虚函数是在声明虚函数时被“初始化”为0的函数。声明纯虚函数的一般形式为:virtual 函数类型 函数名 (参数列表) 0;如 virtual float area() const 0;1.2纯虚函数没有函数体,而且这是一个声明语句后面应有分号。1.3纯虚函数最后面的“0”并…

江苏个人备案网站内容做网站有关机械的图片

生物统计学抽样分布:n个样本会得到n个统计量,将这n个统计量作为总体,该总体的分布即是抽样分布根据辛钦大数定律,从一个非正态分布的总体中抽取的含量主n的样本,当n充分大时,样本平均数渐近服从正态分布。因…

做群头像的网站在线网上银行登录

题干: 某班有 nn 个同学,每个同学有一个外向程度 a_iai​。由于要进行某个活动,需要把他们分成若干个小组,每个小组的人数至少为 mm 人。不同外向程度的人在一个小组会产生不开心值,定义一个小组的不开心值为组内成员…

响应页手机网站源码企业网站的职能主要有

问题:http访问服务器时没有返回,没有超时,一直在阻塞 处理过程:telnet端口能连上,服务端程序也不存在处理时间过长的情况。 说明tcp连接没问题。推测是客户端连接后再发起请求,服务端阻塞了。因为很多客户…

学校网站建设招标什么叫高端网站定制

文章目录 Ubuntu安装Samba流程Samba配置文件Samba添加账户配置文件修改Samba服务控制设置开机自动启动通过systemctl 启动服务通过 rc.local 启动 Windows访问参考链接 当前文章仅用于记录,在 Ubuntu中安装使用Samba,在Windows访问 系统环境:…

网站作为医院形象建设ui设计培训班需要学几个月

对于自动驾驶的商业化落地来说,这个「性感」的赛道一直备受争议。在过去几年,包括港口、矿山等在内的封闭场景进入商业订单的收获期;但类似干线物流这样的半开放式场景,却喜忧参半。 今年初,作为全球自动驾驶领域的技…

洛阳建设网站公司长沙网络推广网站制作

BFS 要点 需要一个辅助队列visited数组,防止重复访问 复杂度 时间复杂度:访问结点的时间访问所有的边的时间 广度优先生成树 邻接表存储的图的表示方式不唯一,生成树也不唯一 DFS 复杂度 时间复杂度:访问结点的时间访问所有…

做搜狗手机网站优化百度推广登录

一、 GBase 8s数据库共有以下 4 种日志模式:无日志模式、缓冲日志模式、无缓冲日志模式、ANSI 模式。详细介绍如下: 1、无日志模式(Non logging): 采用无日志模式时,所有 DML 操作都不会被记录到日志中&…

对网站建设的评价语网站建设工作室 杭州

数据准备 对于本教程,我们将使用以下数据集。 家居用品预算 S / N项目数量价格小计价格适中吗?1芒果96002橘子312003番茄125004食用油565005汤力水133900 房屋建筑项目时间表 S/NITEM开始日期结束日期持续时间(天)1调查土地0…