众智FlagOS 1.6通过统一的系统软件栈彻底打破了AI芯片生态的割裂局面,实现了模型与芯片的高效互通。
2026年1月,北京智源人工智能研究院发布了众智FlagOS 1.6。
官方表示:
1.6版本在多芯片支撑框架、统一编译器、算子库、算子自动生成工具等方面实现系统性升级,显著提升模型跨芯片兼容能力,大幅优化开发流程效率,并全面深化对具身智能的全栈支持,进一步实现向上支持各种语言模型、多模态模型、具身智能模型,向下支持各种芯片架构、多种系统硬件形态以及各种应用场景。
FlagOS1.6版本由中科院计算所、中科加禾、先进编译实验室、澎峰科技、安谋科技、北京大学、基流科技、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、摩尔线程、沐曦科技、清微智能、天数智芯、中国矿业大学(北京)、移动研究院等二十余家顶尖学术与产业机构,以及全球600多位开源社区开发者共同贡献。
在芯片架构向3D堆叠演进、异构超节点不断涌现的复杂背景下,FlagOS 1.6以开源开放的姿态,构建起了一座连接上层复杂模型与下层多样化芯片的稳固桥梁,让开发者终于从繁重的适配工作中解放出来,将精力回归到算法创新本身。
插件化体系重构跨芯算力连接路径
当前的AI技术栈正面临着一场前所未有的复杂度爆炸。
芯片架构不再局限于传统的平面计算,而是向着存算一体、3D堆叠等新形态狂奔,异构超节点的出现更是让算力基础设施变得支离破碎。
与此同时,大模型、具身智能体等新范式的迭代速度远超摩尔定律,催生出海量的新型算子需求。
这就造成了一个巨大的行业困境:如果有M种大模型需要适配N种芯片,传统的做法是建立M乘以N种连接路径。
技术无法复用,资源彼此隔离,生态不仅割裂,而且维护成本高得令人窒息。
FlagOS 1.6直接重构了地基。
它将解决问题的视角从单一的N种芯片生态统一提升到了M种框架接入的全新维度。
通过推出统一的多芯片多框架训练与推理插件体系,FlagOS成功地将那个令人绝望的乘法公式变成了加法公式,即从M乘以N变成了M加上N。这在工程实践中意味着巨大的效率释放。
FlagScale v1.0是这一变革的核心载体。
它彻底重构了代码库,将那些原本深深耦合在框架源码中的硬件特定代码剥离出来,迁移到了一个灵活的插件体系中。
对于训练任务,Megatron-LM-FL和TransformerEngine-FL插件通过构建统一的多后端训练体系,将原有的乘性耦合解耦为加性扩展。
开发者现在无需对框架源码进行任何侵入式的修改,只需要在YAML配置文件中简单指定选用的算子后端,系统就能在运行时自动触发组装与策略验证。
同一个训练脚本,现在可以在英伟达、寒武纪、昇腾、海光等完全不同的芯片上直接运行,真正实现了零代码修改的跨芯迁移。
推理场景同样受益于这种架构创新。
vLLM-plugin-FL构建了统一的多后端推理插件体系,确保了各家厂商无需修改推理框架的核心代码,就能让同一个命令在不同芯片上流畅执行。
为了保证高吞吐量这一推理场景的核心指标,FlagScale在不同芯片间采用了统一的请求调度策略,并在算子层面支持自适应优化。
它能像一个经验丰富的指挥官,根据推理的不同阶段智能匹配最优的算子执行策略,确保每一份算力都被榨干用尽。
在用户感知层,这种复杂的技术细节被封装得极度简洁。
基于统一的runner机制,用户依然保留着熟悉的使用习惯,修改几行配置就能开启训练或推理。
而在冰山之下,FlagScale默默处理了并行策略自动调优、容错恢复、性能预估以及分布式检查点等一系列棘手问题。
它已经实现了从训练、微调、压缩到推理部署的全流程覆盖,并成功接入了Megatron-LM、Vllm、Sglang等主流后端执行引擎。
FlagScale v1.0已经支持了包括英伟达、天数智芯、沐曦科技、昆仑芯、寒武纪、海光信息、华为昇腾、摩尔线程、清微智能在内的9种芯片进行端到端训练。
通过接入统一算子库FlagGems和统一通信库FlagCX,这套系统正在逐步消除国产芯片与国际主流生态之间的体验鸿沟,让即插即用不再是一句空洞的口号。
自动化工厂引领算子开发工业化革命
框架的适配是宏观层面的调度,算子(Operator)开发是微观层面的精雕细琢。
长期以来,算子开发都是AI领域门槛最高、效率最低的环节之一。
它像极了传统的钟表制造,需要高水平的工匠手动处理繁琐的边界条件,精细优化内存访问,甚至亲自推导并实现复杂的反向传播逻辑。
更要命的是,这种手工艺极度依赖硬件特性,同一个算子换一种芯片架构往往就得推倒重来。
这种人力堆砌的模式,在硬件迭代速度远超软件适配速度的今天,已经成为了制约算法创新与算力释放的严重瓶颈。
FlagOS 1.6带来的KernelGen工具,正在将算子开发带入工业化时代。
它将原本需要以年为单位的算子开发周期,惊人地压缩到了小时级。
在自动化流程的支持下,200多个算子的开发周期从传统人工模式下的约1年,缩短到了约3小时。这种效率的跃迁,足以改变整个行业的开发节奏。
KernelGen v1.0是面向高性能Triton算子生成的自动化工具平台。
它不再满足于充当一个简单的代码助手,而是构建起了覆盖算子从生成、验证到跨芯片适配的完整生命周期能力。
用户的使用门槛被降到了最低,只需通过自然语言描述需求,或者提供数学公式,甚至是已有的参考实现,系统就能立即开工。
这个自动化过程极其严谨。
KernelGen首先会从算子生成知识库中智能检索相关的先验知识,这就像是一个老师傅在查阅毕生积累的秘籍。
在此基础上,它会自动生成高质量的Triton内核代码。
但这只是第一步,系统随即会同步完成对比测试的构建与部署,在目标硬件上与PyTorch的标准基准进行严格的一致性校验,确保数值的绝对正确。
紧接着,系统会对生成的算子进行性能评测与加速比量化分析,并通过自动化调优持续打磨执行效率。
从用户输入需求到生成可运行的Triton内核代码,最快仅需不到120秒,真正实现了分钟级的算子交付。
生成出来的算子并非用完即弃,它们会成为生态的一部分。
用户可以将生成的算子及其性能测试结果回馈至FlagGems算子库。
这些新算子会作为实验性算子进入社区,经历功能验证、跨硬件评测、稳定性评审等一系列严格的考验。
一旦通过,它们就会升级为稳定算子,正式纳入FlagGems标准库,供全球开发者使用。
在KernelGen的强力驱动下,FlagGems算子库的规模迅速扩容至363个高质量算子,其中包含了230个正式发布算子和133个首批由AI辅助生成的算子。
作为全球最大的Triton算子库,FlagGems不仅支持了10多种AI芯片,其中80%以上的Triton算子性能已经平齐甚至超过了CUDA原生算子。
为了解决开发者在生产力与极致性能之间的两难选择,FlagTree升级推出了Triton语言扩展(TLE)。
这套编译器提示语言构建了一套分层抽象逻辑,精妙地平衡了易用性与掌控力。
TLE-Lite层坚持一次编写,到处运行,让算法工程师能以最小的改动优化现有内核;TLE-Struct层面向架构感知的精细调优,允许开发者显式定义数据布局,充分挖掘硬件的差异化能力;而TLE-Raw层则为性能专家保留了打破抽象边界的权力,允许直接内联厂商原生代码。
以SparseMLA算子优化为例,仅仅使用TLE-Lite替换了一行代码,就在Hopper GPU上实现了27%的性能提升,这种四两拨千斤的效果正是分层设计的魅力所在。
全栈贯通赋能具身智能实体落地
具身智能是人工智能走出屏幕、进入物理世界的关键一步,但其研发门槛之高令人望而却步。
感知、决策、控制的多模态融合,加上从数据采集、仿真训练到实体部署的漫长链条,每一个环节都充满了断点。
为了填平这些沟壑,FlagOS 1.6专门推出了面向具身智能的FlagOS-Robo版本。
这是一个集成了训练与推理的综合框架,它不仅能在大规模云端集群上运行,也能适配资源受限的边缘设备。
FlagOS-Robo的核心能力在于对视觉语言模型(VLMs)和视觉语言动作模型(VLA)的高效支持。
在这个体系中,VLMs充当着任务规划的大脑,负责理解环境与指令;而VLA模型则扮演着小脑的角色,将决策转化为机器人具体的控制动作。
FlagOS-Robo支持具身智能模型的全生命周期管理。
从多种格式的数据加载,到监督微调(SFT),再到推理部署,以及通过FlagEval-Robo平台进行的综合评估,开发者可以获得一站式的服务。
为了证明这套框架的实战能力,研发团队在摩尔线程(Moore Threads)的千卡大规模集群上进行了严苛的测试。
RoboBrain模型在摩尔线程集群上的训练损失值(loss)与英伟达基线完美对齐,训练趋势高度一致,最终的loss差异仅为0.62%。
在下游任务的多个评测集上,两者表现出的效果几乎没有差别。这有力地证明了国产芯片完全有能力承载复杂的具身智能大模型训练任务。
更重要的是扩展效率。
当计算资源从64张卡增加到1024张卡时,训练速度几乎保持了线性提升,效率高达90.2%。
这一数据直接验证了FlagOS-Robo框架在大规模分布式训练中的高效通信与协同能力,打消了业界对于国产算力集群扩展性的顾虑。
智源研究院还进一步打造了具身智能一站式平台RoboXStudio,它融合了CoRobot、FlagOS-Robo与RoboBrain,提供了从数据采集、标注到模型微调训练的全流程服务。
这个平台甚至支持无需本地部署的在线实验,极大地降低了具身智能的研究门槛,让更多的创新想法能够快速在物理世界中得到验证。
众智FlagOS 1.6加速了国产AI的生态集结。
参考资料:
https://flagos.io
https://github.com/flagos-ai
https://github.com/flagos-ai/FlagScale
https://github.com/flagos-ai/kernelgen
https://github.com/flagos-ai/FlagGems
https://github.com/flagos-ai/flagtree
https://github.com/flagos-ai/FlagOS-Robo