清微智能、Groq与改变GPU单行道的可能性

21世纪什么最贵?大多数公司始料未及,最贵的原来是算力,是数万美元也“一芯难求”的GPU。

OpenAI创始人Sam Altman曾经预言,算力将成为一种新的货币。去年,Gartner预测2026年的全球AI支出预计将达到2.52万亿美元,其中光是基础设施就需要增加4010亿美元的投入,相当于英伟达三年多的营收。

算力的花费可以分为两部分,训练曾经是最昂贵的支出。但随着大模型嵌进搜索、广告、推荐、客服、游戏等高频场景,推理逐渐取代训练,占据更大的成本。IDC预计,2026年,推理算力的消耗占比将会提升到62.2%,训练算力则降低到37.8%。

AI需要商业化,企业便需要更高性价比的算力,否则辛苦开拓的商业模式,最后全喂饱了英伟达。然而,GPU遵循的传统架构在执行运算时有不小的数据搬运成本,在大规模实时生成任务中会产生更多花费,并且制造成本也在不断上升。

于是,挑战者不断出现,并抛出新的想法:如果,我们不用GPU的架构呢?

一、寻找GPU之外的可能性

GPU诞生于图形渲染年代,并行运算能力突出,通用能力强。但这种多功能性用来支持AI,就成了历史包袱,难以满足Token边际成本持续降低的需求。

这是索罗斯“反身性”理论在算力领域的兑现:GPU“意外”适应了AI的需求,早期AI依赖GPU并助推后者市场扩大乃至绝对占有,然而当算力需求发展到一定阶段,GPU架构又限制了AI效率的提高。早期的选择也许只是那个时代的认知偏差,但它又造成了后来的因果循环,直到有新的架构能打破这种怪圈。

相比之下,非GPU路线能更好地针对AI需求做定制化,ASIC(专用集成电路)因此崛起。这条路上的知名企业数不胜数,华为、谷歌、博通、百度、寒武纪……无论采取何种架构、打造何种产品,都是为了AI的降本增效。

2025年11月,谷歌发布Gemini 3,性能跑赢了OpenAI被市场寄予厚望的GPT 5.1。Gemini 3基于谷歌自研芯片TPU训练,高盛推算其单位token推理成本下降约70%,在后发条件下追平了英伟达GB200 NVL72的成本。

去年,Anthropic便宣布要采用最多100万张TPU,11月又有消息称Meta考虑将部分AI基础设施迁移至谷歌TPU。就连英伟达股价,也因此受到影响。

但ASIC有一个天然短板:既然是定制,那么就难以匹配还在持续更新的AI算法和架构需求,而设计一个架构需要很长的周期,一旦算法变更,芯片就有可能过时。“芯模协同”,对于AI生态的构建意义重大。

去年的上海世界人工智能大会上,就有不少国产芯片厂商格外强调这一点。DeepSeek作为开源之光,也得到了国产芯片厂商的大力适配。其V4版本发布在即,很快又要接近适配节点。

既要高性能,又要强适配,有没有一种办法,能让芯片和数据算法更好地协同,高效适应模型的进化?

不仅有,而且还得到了英伟达的变相认可。

去年末,英伟达意外斥资约200亿美元,获得Groq知识产权的非独家授权,并将其主要人物一举收入囊中。

Groq由谷歌TPU早期团队成员创立,他们基于可重构数据流方法打造了LPU(Language Processing Unit,语言处理单元)产品,适配开源模型后展现的推理成本远低于GPU。

而几乎同一时间,“北京四大明星芯片公司”之一的清微智能,也基于可重构芯片(RPU)优势拿下超20亿元C轮融资,国家大基金二期、京能集团、京国瑞等多层级国资密集入场。我们从行业了解到,清微智能过去一年估值翻了三倍有余,接近190亿元,目前正在筹备Pre-IPO轮融资,为最终上市做准备。

“可重构数据流”为什么这么独特,能在大洋两岸同时受到超级资本们的认可甚至追捧?答案是架构——它不再以上下指令的通用处理器为中心,而是先看要处理的数据流长什么样,再让硬件围绕数据流去重构自己的电路拓扑。简单来说,软件定义硬件:

传统GPU存在“内存墙、效率墙、互联墙”问题,因为指挥数据的“旗手”和搬运数据的“员工”要不断地交流信息,徒增成本。ASIC方案把搬运流程变成了固定流水线,效率提高了,不过每次需求一改就要重新定制流水线。而RPU方案是根据数据算法的需求定义流水线,想要什么传送方式,便可以朝那个方向重构。

用清微智能创始人王博的比喻,这是在芯片里搭了一张充满“电子道岔”的铁路网。传统芯片是一条单线铁路,火车只能沿既定轨道跑;可重构数据流芯片则在每个节点都埋了道岔,今天把这些“小计算器”连成卷积流水线,明天又重连成注意力模块专用路径,执行完一段网络就擦除配置,十几纳秒内切成另一种拓扑。

本质上,它把程序驱动硬件变成数据驱动硬件,让数据在芯片内部节点之间直接流动,尽量少绕回显存排队。这对参数海量、访问模式高度规则的大模型尤其友好——每少绕一次路,背后都是成本曲线被向下拉了一段。

于是,算力产业拥有了一个具备差异化特征的“第二阵营”,尝试在蛮力堆砌GPU之外找出路。以清微智能为代表的创业公司,正在给大模型算力问题写出“第二解”。

二、太平洋两岸的可重构竞赛:清微智能领衔中国式创新

可重构的概念并不新鲜,重要的是它有了产业化的能力。Groq把语言推理抽象成LPU,适配开源模型后的推理效率一鸣惊人,SambaNova也在用RDU与整机方案做企业市场。

在这股潮流中,清微智能作为稀缺的新架构算力芯片企业,自然而然扮演了一个新角色:中国并非只能在GPU主线上做追随者,在刚刚打开的第二条算力支流上,我们拥有一支能拿得出手的本土队伍。它脱胎于清华大学微电子学院研究成果,如今正在为中国的芯模协同贡献力量。

在端侧,清微早期用TX5系列产品验证了这条路并非纸上谈兵。一颗工作功耗不到2毫瓦的语音芯片,让门锁、音箱、手机保持常年待机聆听状态;多款视觉与语音终端芯片被装进摄像头、手机、IoT设备里,累计出货超三千万颗。这些看似不起眼的产品,在较长的链路中完成了可重构架构的可靠性和工具链压力测试。

而真正让清微智能具备“爆棚”潜力的,是面向云端市场的TX8高算力芯片。它把“数据流+可重构”直接做到大面积裸片上,并配上一种不同于GPU的互联方式——C2C算力网格。

传统GPU集群的路径是“PCIe—网卡—交换机—网卡—PCIe”,每加一层节点就多一层延迟和拥塞。清微选择在芯片之间直接织网,让多卡互联更接近板上直连。这样一来,在千卡规模内可以削减大量昂贵交换机投资,同时把大模型训练/推理中最容易触顶的“互联墙”压薄一层。

搭载TX81的REX1032训推一体服务器,在同等功耗下可以承载万亿参数模型部署,单机跑DeepSeekR1/V3级别模型无需“缩水版”;整机方案测算下来,比同类GPU产品综合成本低约一半,能效比提升约三倍。

IDC统计显示,2025年上半年,清微在国产非GPU(含可重构、ASIC)加速卡销量中位列第六,进入本土算力第一梯队。

目前,清微智能已经为多地智算中心打造了“实战装备”。黑龙江、浙江、安徽、北京等地陆续上线千卡规模集群,新疆双河的中树云智算中心则在首期工程中直接采用可重构架构,成为“东数西算”和算力出海的重要节点之一。

在软件与生态上,清微一方面在众智FlagOS上做到卓越适配,与寒武纪、昆仑芯、摩尔线程、昇腾、中科海光并列为领域内的“六脉神剑”;另一方面采用“三层兼容”策略——上层CUDA API级兼容,中层深度押注OpenAI主推的Triton编译器并与智源共建生态,底层用RISC‑V替代PTX,为开发者预留足够“压榨性能”的空间。

这些看似琐碎的工程选择,针对的是新架构影响的客户迁移成本、交付与支持可靠性等问题。太多AI芯片创业公司倒在这一关,而清微智能在可重构数据流这条支流上,率先完成了从可用到可规模部署的跃迁,为中国算力产业探得了一方独立、有潜力的天地。

三、从“补课生”到“解题人”:高阶国产替代的第二条路

王博曾经表示,“相比短平快的仿制路线,选择新架构实现‘换道超车’才是真正的高阶国产替代。”清微智能押注未来3到5年的算力革命,实施“研发一代、储备一代、释放一代”的技术战略。

在这个过程中,清微智能扭转了算力问题的维度:不做英伟达的“补课生”,而是在另一条技术主线上,成为“解题人”。

这条路的难度一点不低,它意味着几件事要同时发生:

第一,要接受长时间的生态劣势,只能靠性能、能效、成本上的显著优势来抵消迁移成本。王博给客户的下一阶段承诺是“5倍性价比”:把采购、运维和性能整体算进来,让不转平台显得更亏。这会提高对架构、互联、存储、系统设计每一层的要求,但也会提高中国算力发展的天花板。

第二,要在非GPU赛道上尽快走完从“单点突破”到“系统方案”的闭环。可重构不是一颗孤立芯片,它要和3D存储、Chiplet、晶圆级架构等前沿方向咬合,形成一棵有延展性的技术树。清微规划中的TX83,就尝试把可重构算力网格与晶圆级芯片结合,为“后GPU时代”的大规模集群预留试验场。

第三,要承认算力问题已从芯片问题升级为系统问题。在大规模推理场景下,算力产业需要可长期演进的整体,支撑应用。此时,如果基座完全由海外产品来搭建,我们的应用将进一步形成依赖。而清微智能则在押一条未来十年中国算力不再完全锁死在GPU帝国里的技术路线。

这条路当然不保证成功,GPU也不会被“第二阵营”颠覆。但从产业角度,它至少已留下两个里程碑:

一是把中国在新一代算力架构上的时间点,第一次对齐到全球同一批玩家。

王博曾经总结过,芯片技术发展有一个“类摩尔定律”:20年,架构更新一次。过去在CPU、GPU、存储、接口标准上,我们几乎总是在别人定完方向后才开始追;这一次,在TPU、LPU刚刚从论文走向产品的时间窗口,RPU也由中国工程师以同样节奏做成了可出货的工业品。

二是让国家层面在算力上多了一条真正可选之路。当GPU供应出现风险、单一生态的议价能力高得离谱时,已经被初步跑通的新架构,会成为“火种”。

把视角再拉远一点,如果未来十年AI真能避开上一轮“寒冬”的命运,很可能不是因为模型的聪明颠覆了人类想象,而是低成本大规模应用改变了人类的生产方式。在如此宏大的时代旋律中,站在中国产业的支流上,机会也是无限的。清微智能被时代赋予的稀缺性,最终将以算力红利的形式,反哺于中国产业。

来源:松果财经

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1201081.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搞定138译码器,基于74ls138译码器设计全加器

138译码器的重要性不言而喻,因此对于138译码器,我们应当有所了解。为增加大家对138译码器的认识,本文将介绍如何利用74ls138译码器设计全加器。本文除了对74ls138译码器加以阐述外,文章第二部分将对74ls48译码器予以介绍。如果你对…

输入邮件正文,自动生成三个不同语气(正式/简洁/委婉)的邮件标题,适配商务场景

1. 实际应用场景描述在商务沟通中,邮件标题的语气直接影响收件人的第一印象和打开率:- 正式:适用于向上级汇报、对外合作提案。- 简洁:适用于内部快速通知、任务分配。- 委婉:适用于请求协助、敏感话题沟通。然而&…

满足非标需求:国内SAE法兰定制服务深度解析与推荐,扩口法兰/SAE法兰/内螺纹法兰/分体法兰,SAE法兰推荐哪家好

近年来,国内液压系统应用场景持续拓展,SAE法兰作为管道连接的核心部件,其定制化需求呈现爆发式增长。尤其在船舶、工程机械、煤矿机械等高强度工况领域,用户对法兰的耐压性、抗腐蚀性及适配性提出更高要求。然而,…

狐狸

https://xinyoudui.com/ac/contest/74500D282000A6307D6541/problem/43710 T1 改 \(O(n)\) 改了 114514 年,没有注意到这道简单题。 首先显然有一个基于哈希的暴力做法,赛场上我花 eps 分钟打了个这个,不难发现和 s…

客服大模型 ≠ 问答机器人

为什么很多客服大模型,看起来很聪明,却一点也不好用 如果你做过客服相关的项目,大概率会经历一个非常相似的过程。 一开始,大家都很兴奋。 把历史客服文档、FAQ、知识库一股脑丢进 RAG,接上一个看起来很强的模型,…

羽球教学进入智能时代:吴忠码上俱乐部的专业与科技融合之路

清晨的阳光透过窗户洒在训练场上,韩宁波教练正与一位学员进行多拍对拉练习。与往常不同的是,场边一台平板电脑实时记录着这次训练的数据:击球成功率、移动范围、反应速度…… “你的正手高远球今天成功率提升了12%,但反手区的防守…

金华万级无尘车间改造,2026年优质服务商推荐,恒温恒湿车间/无尘车间/无尘室/车间净化/净化工程,无尘车间标准哪家好

在半导体、生物医药、新能源等高精密制造领域,万级无尘车间是保障产品良率、控制污染风险的核心基础设施。其环境洁净度、温湿度稳定性及空气粒子浓度控制能力,直接影响企业生产效率与市场竞争力。本文聚焦金华及周边…

瑞祥全球购卡怎么回收,四种主流渠道展示

瑞祥全球购卡怎么回收,四种主流渠道展示瑞祥全球购作为瑞祥科技集团打造的综合消费服务载体,其发行的全球购卡覆盖商超、餐饮、线上购物等多元场景,是节日馈赠与日常消费的常用卡券。不少人手中会囤积闲置的瑞祥全球…

ESCMT AI培训:签协议保就业,精准破解转行/提升痛点,筑牢AI职场护城河

在AI技术飞速迭代、行业人才需求激增的今天,越来越多人渴望抓住AI风口——零基础者想转行拿高薪,职场人想借AI技能提升竞争力,应届生想凭借AI专长敲开名企大门,但“学不会、没项目、就业难、怕踩坑”四大痛点,始终…

洛谷 P10931:闇の連鎖 ← 树上差分(边差分)+ dfs预处理

​【题目来源】https://www.luogu.com.cn/problem/P10931https://www.acwing.com/problem/content/354/ 【题目描述】传说中的暗之连锁被人们称为 Dark。Dark 是人类内心的黑暗的产物,古今中外的勇者们都试图打倒它。…

mac文本编辑器

https://gitee.com/cxasm/notepad--/releases/tag/v2.20.1

波形发生器如何构建?基于Verilog打造自己的DDS任意波形发生器

波形发生器在各大行业中均有使用,带来了诸多便利。对于波形发生器,小编在往期文章中做过很多介绍。本文中,主要在于探讨波形发生器的实现过程。具体而言,将介绍基于Verilog实现DDS任意波形发生器。如果你是波形发生器的爱好者&…

深度解析支持CRM系统集成的银行服务机器人技术与主流产品评测

随着银行业数字化转型的深入,线下网点的职能正在经历从“交易中心”向“营销与服务中心”的深刻变革。在这一进程中,智能服务机器人已不再是仅供展示的科技噱头,而是逐渐演变为能够承担实质性工作的“数字员工”。截…

2026 年 AI 摄影培训哪家强?五大优质院校盘点,成都莱特凭实力领跑

引言 随着 AIGC 技术的飞速发展,AI 摄影、短视频创作、视频剪辑与 IP 运营已成为职场新风口,越来越多的人渴望通过专业培训掌握相关技能,无论是职场提升、兴趣深耕还是创业转型,选择一所靠谱的培训学校成为关键。2…

基于Java+SpringBoot+SSM师生互动桥系统(源码+LW+调试文档+讲解等)/师生互动平台系统/师生互动教学系统/互动桥梁系统/师生交流桥系统/教学互动桥系统

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…

工业检测必备:盘点国内外气密性测试仪品牌,哪家更适合你?

在工业生产中,产品的气密性是衡量其质量和性能的重要指标之一。无论是汽车零部件、电子设备,还是食品包装等行业,都需要使用气密性测试仪来确保产品的密封性符合标准。然而,面对市场上琳琅满目的气密性测试仪品牌和…

电商GIF主图压缩教程,专业GIF压缩工具优化攻略

做自媒体配图、电商主图或课件动图时,总遇到选不好GIF 压缩工具、压缩后画质模糊,或是压缩后体积仍不达标无法上传的问题,换多款工具反复调试,既浪费时间又达不到预期效果。不同平台对 GIF 有明确规格要求:微信动图建议…

2026年新加坡PSB学院申请中介核心优势指南:聚焦独特价值与差异化

随着2026年留学市场进一步细分与成熟,申请者的决策逻辑已从“大而全”的泛泛比较,转向对服务机构“王牌优势”的精准识别。根据行业通用观察,在服务内容表面趋同的市场中,机构的独特核心优势已成为决策最关键、最直…

深入解析:Java两种代理模式详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

基于Java+SpringBoot+SSM客户股票交易教学系统(源码+LW+调试文档+讲解等)/股票交易教学平台/客户交易指导系统/股票教学系统/客户股票操作教学/股票交易培训系统/客户交易学习系统

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…