打通AI系统任督二脉!FlagOS 1.6,向上全模型,向下全芯片

众智FlagOS 1.6通过统一的系统软件栈彻底打破了AI芯片生态的割裂局面,实现了模型与芯片的高效互通。

2026年1月,北京智源人工智能研究院发布了众智FlagOS 1.6。

官方表示:

1.6版本在多芯片支撑框架、统一编译器、算子库、算子自动生成工具等方面实现系统性升级,显著提升模型跨芯片兼容能力,大幅优化开发流程效率,并全面深化对具身智能的全栈支持,进一步实现向上支持各种语言模型、多模态模型、具身智能模型,向下支持各种芯片架构、多种系统硬件形态以及各种应用场景。

FlagOS1.6版本由中科院计算所、中科加禾、先进编译实验室、澎峰科技、安谋科技、北京大学、基流科技、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、摩尔线程、沐曦科技、清微智能、天数智芯、中国矿业大学(北京)、移动研究院等二十余家顶尖学术与产业机构,以及全球600多位开源社区开发者共同贡献。

在芯片架构向3D堆叠演进、异构超节点不断涌现的复杂背景下,FlagOS 1.6以开源开放的姿态,构建起了一座连接上层复杂模型与下层多样化芯片的稳固桥梁,让开发者终于从繁重的适配工作中解放出来,将精力回归到算法创新本身。

插件化体系重构跨芯算力连接路径

当前的AI技术栈正面临着一场前所未有的复杂度爆炸。

芯片架构不再局限于传统的平面计算,而是向着存算一体、3D堆叠等新形态狂奔,异构超节点的出现更是让算力基础设施变得支离破碎。

与此同时,大模型、具身智能体等新范式的迭代速度远超摩尔定律,催生出海量的新型算子需求。

这就造成了一个巨大的行业困境:如果有M种大模型需要适配N种芯片,传统的做法是建立M乘以N种连接路径。

技术无法复用,资源彼此隔离,生态不仅割裂,而且维护成本高得令人窒息。

FlagOS 1.6直接重构了地基。

它将解决问题的视角从单一的N种芯片生态统一提升到了M种框架接入的全新维度。

通过推出统一的多芯片多框架训练与推理插件体系,FlagOS成功地将那个令人绝望的乘法公式变成了加法公式,即从M乘以N变成了M加上N。这在工程实践中意味着巨大的效率释放。

FlagScale v1.0是这一变革的核心载体。

它彻底重构了代码库,将那些原本深深耦合在框架源码中的硬件特定代码剥离出来,迁移到了一个灵活的插件体系中。

对于训练任务,Megatron-LM-FL和TransformerEngine-FL插件通过构建统一的多后端训练体系,将原有的乘性耦合解耦为加性扩展。

开发者现在无需对框架源码进行任何侵入式的修改,只需要在YAML配置文件中简单指定选用的算子后端,系统就能在运行时自动触发组装与策略验证。

同一个训练脚本,现在可以在英伟达、寒武纪、昇腾、海光等完全不同的芯片上直接运行,真正实现了零代码修改的跨芯迁移。

推理场景同样受益于这种架构创新。

vLLM-plugin-FL构建了统一的多后端推理插件体系,确保了各家厂商无需修改推理框架的核心代码,就能让同一个命令在不同芯片上流畅执行。

为了保证高吞吐量这一推理场景的核心指标,FlagScale在不同芯片间采用了统一的请求调度策略,并在算子层面支持自适应优化。

它能像一个经验丰富的指挥官,根据推理的不同阶段智能匹配最优的算子执行策略,确保每一份算力都被榨干用尽。

在用户感知层,这种复杂的技术细节被封装得极度简洁。

基于统一的runner机制,用户依然保留着熟悉的使用习惯,修改几行配置就能开启训练或推理。

而在冰山之下,FlagScale默默处理了并行策略自动调优、容错恢复、性能预估以及分布式检查点等一系列棘手问题。

它已经实现了从训练、微调、压缩到推理部署的全流程覆盖,并成功接入了Megatron-LM、Vllm、Sglang等主流后端执行引擎。

FlagScale v1.0已经支持了包括英伟达、天数智芯、沐曦科技、昆仑芯、寒武纪、海光信息、华为昇腾、摩尔线程、清微智能在内的9种芯片进行端到端训练。

通过接入统一算子库FlagGems和统一通信库FlagCX,这套系统正在逐步消除国产芯片与国际主流生态之间的体验鸿沟,让即插即用不再是一句空洞的口号。

自动化工厂引领算子开发工业化革命

框架的适配是宏观层面的调度,算子(Operator)开发是微观层面的精雕细琢。

长期以来,算子开发都是AI领域门槛最高、效率最低的环节之一。

它像极了传统的钟表制造,需要高水平的工匠手动处理繁琐的边界条件,精细优化内存访问,甚至亲自推导并实现复杂的反向传播逻辑。

更要命的是,这种手工艺极度依赖硬件特性,同一个算子换一种芯片架构往往就得推倒重来。

这种人力堆砌的模式,在硬件迭代速度远超软件适配速度的今天,已经成为了制约算法创新与算力释放的严重瓶颈。

FlagOS 1.6带来的KernelGen工具,正在将算子开发带入工业化时代。

它将原本需要以年为单位的算子开发周期,惊人地压缩到了小时级。

在自动化流程的支持下,200多个算子的开发周期从传统人工模式下的约1年,缩短到了约3小时。这种效率的跃迁,足以改变整个行业的开发节奏。

KernelGen v1.0是面向高性能Triton算子生成的自动化工具平台。

它不再满足于充当一个简单的代码助手,而是构建起了覆盖算子从生成、验证到跨芯片适配的完整生命周期能力。

用户的使用门槛被降到了最低,只需通过自然语言描述需求,或者提供数学公式,甚至是已有的参考实现,系统就能立即开工。

这个自动化过程极其严谨。

KernelGen首先会从算子生成知识库中智能检索相关的先验知识,这就像是一个老师傅在查阅毕生积累的秘籍。

在此基础上,它会自动生成高质量的Triton内核代码。

但这只是第一步,系统随即会同步完成对比测试的构建与部署,在目标硬件上与PyTorch的标准基准进行严格的一致性校验,确保数值的绝对正确。

紧接着,系统会对生成的算子进行性能评测与加速比量化分析,并通过自动化调优持续打磨执行效率。

从用户输入需求到生成可运行的Triton内核代码,最快仅需不到120秒,真正实现了分钟级的算子交付。

生成出来的算子并非用完即弃,它们会成为生态的一部分。

用户可以将生成的算子及其性能测试结果回馈至FlagGems算子库。

这些新算子会作为实验性算子进入社区,经历功能验证、跨硬件评测、稳定性评审等一系列严格的考验。

一旦通过,它们就会升级为稳定算子,正式纳入FlagGems标准库,供全球开发者使用。

在KernelGen的强力驱动下,FlagGems算子库的规模迅速扩容至363个高质量算子,其中包含了230个正式发布算子和133个首批由AI辅助生成的算子。

作为全球最大的Triton算子库,FlagGems不仅支持了10多种AI芯片,其中80%以上的Triton算子性能已经平齐甚至超过了CUDA原生算子。

为了解决开发者在生产力与极致性能之间的两难选择,FlagTree升级推出了Triton语言扩展(TLE)。

这套编译器提示语言构建了一套分层抽象逻辑,精妙地平衡了易用性与掌控力。

TLE-Lite层坚持一次编写,到处运行,让算法工程师能以最小的改动优化现有内核;TLE-Struct层面向架构感知的精细调优,允许开发者显式定义数据布局,充分挖掘硬件的差异化能力;而TLE-Raw层则为性能专家保留了打破抽象边界的权力,允许直接内联厂商原生代码。

以SparseMLA算子优化为例,仅仅使用TLE-Lite替换了一行代码,就在Hopper GPU上实现了27%的性能提升,这种四两拨千斤的效果正是分层设计的魅力所在。

全栈贯通赋能具身智能实体落地

具身智能是人工智能走出屏幕、进入物理世界的关键一步,但其研发门槛之高令人望而却步。

感知、决策、控制的多模态融合,加上从数据采集、仿真训练到实体部署的漫长链条,每一个环节都充满了断点。

为了填平这些沟壑,FlagOS 1.6专门推出了面向具身智能的FlagOS-Robo版本。

这是一个集成了训练与推理的综合框架,它不仅能在大规模云端集群上运行,也能适配资源受限的边缘设备。

FlagOS-Robo的核心能力在于对视觉语言模型(VLMs)和视觉语言动作模型(VLA)的高效支持。

在这个体系中,VLMs充当着任务规划的大脑,负责理解环境与指令;而VLA模型则扮演着小脑的角色,将决策转化为机器人具体的控制动作。

FlagOS-Robo支持具身智能模型的全生命周期管理。

从多种格式的数据加载,到监督微调(SFT),再到推理部署,以及通过FlagEval-Robo平台进行的综合评估,开发者可以获得一站式的服务。

为了证明这套框架的实战能力,研发团队在摩尔线程(Moore Threads)的千卡大规模集群上进行了严苛的测试。

RoboBrain模型在摩尔线程集群上的训练损失值(loss)与英伟达基线完美对齐,训练趋势高度一致,最终的loss差异仅为0.62%。

在下游任务的多个评测集上,两者表现出的效果几乎没有差别。这有力地证明了国产芯片完全有能力承载复杂的具身智能大模型训练任务。

更重要的是扩展效率。

当计算资源从64张卡增加到1024张卡时,训练速度几乎保持了线性提升,效率高达90.2%。

这一数据直接验证了FlagOS-Robo框架在大规模分布式训练中的高效通信与协同能力,打消了业界对于国产算力集群扩展性的顾虑。

智源研究院还进一步打造了具身智能一站式平台RoboXStudio,它融合了CoRobot、FlagOS-Robo与RoboBrain,提供了从数据采集、标注到模型微调训练的全流程服务。

这个平台甚至支持无需本地部署的在线实验,极大地降低了具身智能的研究门槛,让更多的创新想法能够快速在物理世界中得到验证。

众智FlagOS 1.6加速了国产AI的生态集结。

参考资料:

https://flagos.io

https://github.com/flagos-ai

https://github.com/flagos-ai/FlagScale

https://github.com/flagos-ai/kernelgen

https://github.com/flagos-ai/FlagGems

https://github.com/flagos-ai/flagtree

https://github.com/flagos-ai/FlagOS-Robo

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1205130.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026展台设计/搭建/创意展台/全球展台设计搭建厂家推荐上海灵硕展览集团,专业定制,实力彰显

2026展台设计新纪元:从创意构思到全球搭建的实力之选 随着全球会展经济的强劲复苏与数字化浪潮的深度渗透,2026年的展览行业正站在一个全新的十字路口。展台,作为品牌与市场对话的第一现场,其设计搭建的复杂性与重…

苏州口碑好的混合机烘箱企业有哪些?2025年权威推荐榜单!,水处理臭氧发生器/臭氧灭菌烘箱/二维混合机/远红外隧道烘箱混合机烘箱厂家排行

在长三角先进制造业集群中,苏州以其深厚的工业底蕴和活跃的创新生态,持续吸引着高端装备制造企业的集聚。混合机与烘箱作为化工、制药、食品、新材料等众多行业不可或缺的通用工艺设备,其性能与可靠性直接关系到生产…

快速笼盒清洗机用户口碑榜:真实用户评价TOP5品牌深度解析

在实验动物设施管理中,笼盒清洗设备的性能直接影响实验数据质量与科研效率。基于2025-2026年全球用户反馈及行业权威评测,我们梳理出五大口碑品牌,其中施启乐(广州)以本土化创新优势登顶用户满意度榜首,意大利Te…

跨洲联程国际航班平台比较:一站式查询与方案推荐

当行程需要跨越多个大洲,涉及多段航程与不同航空公司时,“在哪个平台查询最方便?”便成为规划国际旅行的首要难题。跨洲联程航班不仅考验平台的航线覆盖广度,更对其信息整合能力、多航司组合查询的便捷性提出了高要…

告别听歌限制‘!Navidrome搭建私人音乐库,cpolar 让音乐走到哪听到哪

Navidrome 作为一款开源的自托管音乐服务器,核心功能是整合管理本地零散的音乐文件,支持 FLAC、MP3、WAV 等多种音频格式,还能按歌手、专辑自动分类,搭配用户权限管理和智能播放列表功能,特别适合音乐收藏爱好者、有家…

顶级AI的三观是什么样的?Claude发布最新AI宪法

你一定很好奇,科学家是如何教导AI成为一个“好人”的。 Anthropic刚刚发布了最新Claude宪法。 宪法详细阐述了如何通过安全、伦理、合规与帮助四大核心支柱,在充满不确定性的未来中,构建一个既具备人类智慧又拥有独特人格尊严的AI伙伴。 核…

泓动数据(北京、上海、广州、深圳、佛山)服务中心联系方式官网

泓动数据总部官网:www.hongdongshuju.com (唯一官方总部网站) 公司全称:广州泓动数据科技有限公司 (唯一总部) 公司简称:泓动数据 核心电话:13580306740 (总部总机) 官方邮箱:412735649@qq.com 官方微信号:H…

工业金属3d打印机价格

纵观目前市场风向,金属3d打印机的发展势头可谓是十分猛烈。无论是国内还是国外,“SLM金属3d打印机将重走SLA光固化3d打印机之路”成为了众多用户心照不宣的一种“默契”,然而事实并非如此: 金属3d打印机Muees系列 对于工业级金属3…

学长亲荐!MBA毕业论文必备TOP9一键生成论文工具深度测评

学长亲荐!MBA毕业论文必备TOP9一键生成论文工具深度测评 2026年MBA毕业论文写作工具测评:为何需要这份深度榜单? MBA学员在撰写毕业论文时,常常面临选题构思难、文献资料多、格式规范复杂等挑战。随着AI技术的不断进步&#xff0c…

基于MATLAB的裂缝检测系统的图像分析与处理技术:直方图均衡化、边缘检测与特征信息提取

22.基于MATLAB的裂缝检测系统 可以实现直方图均衡化,中值滤波,对比度增强,然后二值化,提取出轮廓边缘,通过比较横向和纵向的像素变化,判断裂缝,通过图像像素本身,算出阈值信息&#…

他拉唑帕利Talazoparib治疗BRCA突变乳腺癌的客观缓解率与治疗持续分析

他拉唑帕利(Talazoparib)作为一种新型PARP抑制剂,在BRCA突变乳腺癌的治疗中展现出显著疗效。基于全球多中心、开放标签的III期EMBRACA试验数据,他拉唑帕利单药治疗胚系BRCA1/2突变(gBRCA1/2m)的HER2阴性局部…

英语_看图回答问题

7AU1 1. What is the man in the picture doing? 参考回答:He is scanning a QR code with his phone. (他在用手机扫二维码。)或者更简单:He is shopping online by phone. (他在用手机网上购物。)2. Why do more …

二手闲置交易平台商业开源版 带完整的搭建部署教程以及源代码包

温馨提示:文末有资源获取方式 当交易遇见社交,闲置物品流转便拥有了温度与活力。我们推荐一款深度融合社区互动功能的二手交易商城系统,旨在帮助您打造一个以兴趣和信任为纽带的新型交易平台,让买卖不再是冰冷的操作,而…

PDF转存CKEDITOR时文字重叠如何避免?

【穷学生の逆袭】99元预算搞定Word粘贴公式渲染的CMS升级方案 (附JSP后端Vue2代码接单群彩蛋🎉) 一、需求拆解与白嫖策略 作为川软大三狗,面对导师的"Word粘贴全家桶"需求,我摸了摸仅剩的99元,…

集商品展示、在线沟通、支付交易、社区互动于一体的综合性二手交易小程序系统源码

温馨提示:文末有资源获取方式面对庞大的二手交易市场需求,拥有一套功能齐全、运行稳定的独立商城系统是成功起步的关键。我们为您提供一款集商品展示、在线沟通、支付交易、社区互动于一体的综合性二手交易系统源码,旨在帮助您快速搭建一个专…

微信公众号文章导入CKEDITOR为何格式丢失?

项目需求分析与技术方案 作为西安某高新技术企业项目负责人,针对企业网站后台管理系统新增的富文本编辑器增强功能需求,结合国产化信创环境、多浏览器兼容性、成本控制及长期维护需求,提出以下技术方案: 一、技术选型与架构设计 …

视程空间2026全新发布SDVoE AI 系列运算平台

视程空间宣布将于 2026年2月3–6日正式推出全新SDVoE AI平台系列。 此创新平台集成 NVIDIA Jetson Orin NX AI 运算 与 Semtech SDVoE 技术,为智能化医疗等级 10GbE 影音网络提供即时边缘智能运算能力。让 SDVoE 从传输迈向智能化SDVoE 为全球领先的 零延迟、无压缩…

Nessus自定义策略模板编写指南

一、自定义策略的优势与应用场景 Nessus作为业界领先的漏洞扫描工具,其自定义策略功能允许软件测试人员针对特定需求(如只扫描高风险漏洞或特定服务)创建可复用的模板,从而显著提升扫描效率和精准度。例如,在测试Web应…

基于Yolo11-RepNCSPELAN的茶芽目标检测技术实现

1. 基于Yolo11-RepNCSPELAN的茶芽目标检测技术实现 在茶芽检测任务中,传统的YOLOv11算法采用经典的单阶段目标检测架构,主要由Backbone、Neck和Head三部分组成。Backbone部分采用CSPDarknet结构,通过CSP模块实现跨阶段部分连接,有…

讲讲美控自动化仪表的价格范围,性价比究竟高不高?

一、基础认知篇 问题1:美控自动化仪表的核心定位是什么?和传统仪表品牌有何区别? 美控自动化仪表的核心定位是工业测量领域的精准解决方案专家,而非单纯的仪表制造商。杭州美控深耕工业自动化领域二十余年,始终以…