文章全面介绍阿里系开源大模型项目,包括达摩院的具身智能三大件、视频多模态模型,通义实验室的Qwen2.5/Qwen3系列,以及蚂蚁集团的AI原生数据、扩散语言模型与多智能体项目。提供选型指南,帮助开发者构建基于Qwen大模型的AI应用系统。
(说明:本文仅收录了阿里系部分开源项目,且部分信息可能存在更新不及时的问题)
💡 为什么阿里系开源火力拉满?
过去一年里,阿里系在开源上的“火力”明显拉满:
✅ 一方面,Qwen2.5 / Qwen3 系列大模型持续迭代,基本构成阿里系所有 AI 开源工程的“地基”
✅ 另一方面,从具身智能三大件、视频多模态大模型,到数据库场景的 AI 框架、多智能体(Multi-Agent)平台、扩散语言模型,阿里系仍在不同垂直方向不断放出新项目
📌 一、达摩院:具身智能 + 多模态 AI 的“前沿实验场”
🔹 1. Rynn 系列:具身智能「三大件」
2025 年 8 月,阿里达摩院在世界机器人大会上开源具身智能三大核心组件:
(1)RynnRCP:机器人上下文协议
GitHub: alibaba-damo-academy/RynnRCP(约 117★)
定位:一套完整的机器人服务协议与框架,核心由两部分构成
RCP framework:抽象机器人本体与传感器能力,提供统一接口,并适配不同传输层与模型服务
RobotMotion:在“云端推理”与“机器人本体控制”之间搭桥,将离散、低频的推理指令转换为高频连续控制信号,同时提供 MuJoCo 仿真、真机调试与回放、轨迹可视化等工具
代表价值:
将 MCP(Model Context Protocol)理念引入具身智能,提出面向机器人的 RCP(Robotics Context Protocol)
打通“传感器数据采集 → 模型推理 → 动作执行”闭环流程,解决开发碎片化、适配难问题
活跃度:2025 年 8 月刚开源,配套论文与多篇深度解读持续出现,高度活跃
(2)RynnVLA-001:基于人类示范的 VLA 模型
GitHub: alibaba-damo-academy/RynnVLA-001(约 275★)
定位:视觉-语言-动作(Vision-Language-Action, VLA)模型
核心思想:先在 1200 万条第一人称操作视频上做视频生成 + 轨迹感知预训练,再迁移到机器人操作任务
技术特点:
三阶段训练:自我视角图像→视频生成预训练 → 关键点轨迹预测增强“动作意识” → 转化为 VLA 模型
ActionVAE 将动作序列压缩到低维潜空间,降低输出复杂度
效果:在多项抓取与放置任务中优于同类基线,在真实机械臂实验中表现稳定
活跃度:2025 年 8 月发布后持续更新,处于快速扩散期
(3)RynnVLA-002:统一 VLA 与世界模型的「动作世界模型」
GitHub: alibaba-damo-academy/RynnVLA-002(约 829★)
定位:自回归 Action World Model,统一“视觉-语言-动作(VLA)”与“世界模型”
关键创新:
图像、文本、动作共享统一词表,在单一 LLM 架构中统一理解 & 生成多模态
世界模型用“动作+视觉输入”预测未来图像状态,学习环境物理规律,反向增强动作规划
实现 VLA 与世界模型的“双向增强”:世界模型提升动作规划符合物理,VLA 提升场景建模
性能亮点:
LIBERO 仿真基准零预训练 97.4% 成功率
真实 LeRobot 任务成功率提升 50%+
活跃度:2025 年 11 月公开论文和代码,Star 持续上涨,2025 年具身智能最热项目
(4)RynnEC:让 MLLM 真正“看懂”三维世界
GitHub: alibaba-damo-academy/RynnEC(约 384★)
定位:为具身认知任务设计的视频多模态大语言模型(MLLM),专注“世界理解”
能力与特点:
从位置、功能、数量等 11 个维度解析场景中的物体
进行空间关系推理(如判断移动物体是否会碰撞)
构建基于普通视频的数据生成流水线,大幅降低 3D 标注成本
应用场景:辅助机器人完成空间理解、导航、物体操作等具身任务
活跃度:2025 年 8 月发布,论文、模型与基准持续更新,高度活跃
🔹 2. VideoLLaMA3:7B 参数的视频理解 SOTA
GitHub: DAMO-NLP-SG/VideoLLaMA3(约 1.1k★)
发布时间:2025 年 2 月
定位:面向图像和视频理解的多模态基础模型,7B 参数主力版 + 2B 端侧轻量版
技术亮点:
以视觉为中心设计:先用高质量图像-文本数据打基础,再用少量视频-文本数据微调
任意分辨率视觉 Token 化(AVT),打破固定分辨率限制
差分帧剪枝器(DiffFP),压缩冗余帧,降低算力消耗
效果:
通用视频理解、时间推理、长视频理解刷新同规模开源模型 SOTA
文档/图表理解、数学推理(MathVista)、InfoVQA 等图像基准表现突出
活跃度:2025 年 2 月开源后持续有 Issue/PR 与衍生模型更新,高度活跃
🔹 3. WebAgent & DeepResearch:端到端 Web 智能体与“深度研究”助手
(1)WebAgent:自主搜索智能体体系
时间:2025 年 5 月开源
核心模块:
WebDancer:端到端训练框架,实现多步信息检索
WebWalker:Web 遍历与导航的 Benchmark
WebSailor、WebShaper、WebWatcher:围绕数据合成、视觉-语言深度研究等场景
Star & 活跃度:
整体框架 Star 突破万级(DeepResearch 仓库约 17.9k★)
入选“Top Agentic Project”榜单,极度活跃
(2)DeepResearch:长程“深度研究”智能体
GitHub: Alibaba-NLP/DeepResearch(约 17.9k★)
定位:通义实验室推出的“深度研究” Agent,支持多轮检索、多跳推理、长文档分析
模型规模:30.5B 总参数,每 token 仅激活 3.3B
特点:
基于 WebAgent 系列构建完整深度研究流水线
GitHub Trending 长期霸榜,Star 破万
活跃度:2025 年 9 月 Star 突破 17k,多语言实现持续更新,高度活跃
🔹 4. OpenAvatarChat:单机可跑的实时数字人对话系统
GitHub: HumanAIGC-Engineering/OpenAvatarChat(约 3k★)
发布时间:2025 年 4 月
背景:由阿里巴巴达摩院孵化
能力:
单台 PC 运行完整链路:ASR → LLM → TTS → 数字人表情驱动(延迟约 2.2 秒)
支持 2D/3D 头像、摄像头视觉分析、实时表情驱动
模块化设计,ASR/LLM/TTS/Avatar 可替换(如接入 MiniCPM-o、CosyVoice)
应用场景:虚拟主播、在线客服、教育陪练、AI 助手
活跃度:2025 年多篇部署教程、B 站官方教程、频繁 Release,高度活跃
🔹 5. FunClip:语音驱动的本地化 AI 视频剪辑工具
GitHub: modelscope/FunClip(约 5.3k★)
定位:完全开源、本地部署的自动化视频剪辑工具
功能亮点:
工业级中文 ASR(Paraformer-Large),支持热词定制、说话人分离
按文本片段/说话人批量剪辑,自动导出全视频/目标片段 SRT 字幕
集成多种 LLM(qwen 系列、gpt 系列)实现“语义级”剪辑
活跃度:2024 发布,2025 持续功能迭代与生态扩展,高度活跃
🌐 二、通义实验室:Qwen2.5 & Qwen3,阿里开源版图的“地基”
通义实验室的 Qwen2.5 / Qwen3 系列是阿里系开源的“地基”:
从通用大模型到代码、多模态、长文本、Embedding、Agent 框架,几乎所有高星项目都围绕 Qwen 展开
🔹 1. Qwen2.5:从通用大模型到 Omni 多模态
发布时间段:2024 年 9 月起(2.5 主线),2025 年 1-3 月集中放量
代表仓库与 Star:
Qwen2.5-Omni:约 3.9k★(端到端多模态,处理文本/图像/音频/视频输入)
Qwen2.5-Coder:约 14.8k★(0.5B~32B 全尺寸代码模型)
Qwen2.5-VL:约 6.5k★(3B / 7B / 72B 视觉-语言模型)
Qwen2.5-Math:约 1.1k★(数学专用模型)
Qwen2.5-1M 系列:支持 100 万 token 上下文(长文档处理领先)
Qwen-Wan2.x系列:开放和高级的大规模视频生成模型
定位与价值:
统一架构覆盖语言/视觉/音频/视频/数学/代码/长文本七大方向
Qwen2.5-1M 将上下文长度拉到 1M tokens,使超长文档处理成为现实
Omni 模型实现“实时语音+视频对话”开箱即用能力
🔹 2. Qwen3:混合推理时代的“王炸开源”
发布时间:2025 年 4 月 29 日
核心仓库与 Star:
Qwen3:发布首日近 20k★,入选“2025 年最热开源项目”
Qwen3-Coder:约 14.8k★
Qwen3-VL:约 17.7k★
Qwen3-Omni:约 3.2k★
技术与使用特点:
“混合推理(Hybrid Reasoning)”架构:普通生成模式 + 思考模式(类似 DeepSeek-R1 的思维链)
全尺寸 MoE + Dense 开源:Qwen3-235B-A22B(激活 22B)对标 DeepSeek-R1
生态一体化:打包 Coder、VL、Omni、Embedding、RAG、Agent 框架等完整链条
🔹 3. Agent 与工具链:Qwen-Agent / Qwen-Code / Embedding 家族
(1)Qwen-Agent:大模型应用开发框架
GitHub: QwenLM/Qwen-Agent(约 10k–11k★)
能力:
封装指令跟随、Function Calling、MCP、Code Interpreter、RAG、浏览器控制
提供 GUI Demo、Chrome 插件、工具调用示例
活跃度:2024 年 9 月至今多次迭代,GitHub Trending 常驻,高度活跃
(2)Qwen-Code:终端里的 AI 编程 Agent
GitHub: QwenLM/qwen-code(快速突破 10k★)
定位:开源、跨平台终端 AI 助手,针对 Qwen3-Coder 深度优化
能力:
理解重构大规模代码仓库
命令行中直接调用编辑器、运行测试、生成补丁
集成 VS Code、MCP 等生态
价值:让“用开源大模型做日常开发”从概念落地实践
(3)Qwen3-Embedding / Qwen3-VL-Embedding
Qwen3-Embedding:约 1.7k★(文本嵌入,MTEB 多语言榜单领先)
Qwen3-VL-Embedding:约 300+★(文本-图像-视频统一检索)
应用:被 RAGFlow、Milvus 等集成,用于企业级知识库构建
🐘 三、蚂蚁集团:AI 原生数据、扩散语言模型与多智能体
🔹 1. DB-GPT:AI 原生数据应用开发框架
GitHub: eosphoros-ai/DB-GPT(超 1.7w★)
定位:大模型+数据库的下一代应用基础设施
关键能力:
多模型管理(SMMF)、Text2SQL 强化、GraphRAG、Multi-Agents 协作
支持多数据源(数据库、数仓、文件)、多类型知识库构建
应用场景:智能 BI、自然语言数据分析、企业知识助手
活跃度:2025 年持续更新 GraphRAG、VSAG 集成,数千用户,高度活跃
🔹 2. LLaDA2.0:首个 100B 扩散语言模型
GitHub: inclusionAI/LLaDA2.0(约 218★)
发布时间:2025 年 12 月
特点:
16B/100B 双版本,MoE 架构
从 AR 模型“平滑转化”再训练,实现代码/数学/推理任务性能超越同级自回归模型
活跃度:2025 年 12 月开源,Star 爬升中,周边工具持续更新
🔹 3. VSAG:高性能向量检索索引库
GitHub: antgroup/vsag(约 439★)
定位:专为相似度检索设计的 C++ 向量索引库
亮点:
内存占用及查询性能优化,优于传统 HNSW
已集成 DB-GPT 与蚂蚁自研图数据库
活跃度:2025 年 11 月仍有 Release,Issue/PR 活跃,中高活跃
🔹 4. CodeFuse 生态:代码大模型工具链
代表项目:
CodeFuse-CGM:图结构驱动的代码生成模型
CodeFuse-Query:基于 Query 的大规模代码分析引擎
CodeFuse-IDE:基于 CodeFuse + OpenSumi 的 AI Native IDE
活跃度:2025 年 NeurIPS 等顶会新论文,GitHub 持续更新,生态活跃
🔹 5. AWorld:动态多智能体系统
GitHub: inclusionAI/AWorld(约 1.1k★)
定位:构建、评估和训练通用 Multi-Agent 系统
技术亮点:
IM0 任务 6 小时内复刻 DeepMind 模型 5/6 道金牌解题结果
支持纯自然语言推理与 Workflow 组合构造协作策略
活跃度:2025 年 8 月论文与 GitHub 同步发布,Star 破千,高度活跃
🔹 6. agentUniverse:面向金融的多智能体框架
GitHub: agentuniverse-ai/agentUniverse(约 2k★)
定位:大模型多智能体框架,服务金融与企业级复杂业务
特点:
提供多智能体协作编排组件,内置多种协作 pattern
支持“拿来即用”或自定义模式
活跃度:2025 年持续 Release 与文档更新,活跃
🔹 7. EchoMimic 系列:让静态人像“对口型、带表情”
GitHub:
antgroup/echomimic(V1,约 4.2k★)
antgroup/echomimic_v2(V2,约 4.4k★)
antgroup/echomimic_v3(V3,约 691★)
定位:基于语音驱动的肖像动画生成系列模型
技术演进:V1:可编辑关键点 + 语音驱动
V2:效果提升 + 半身动作支持
V3:1.3B 参数保真度突破
生态:ComfyUI 插件、Jupyter Demo、Pinokio 脚本等
活跃度:2025 年全年持续生态扩展,高度活跃
⚙️ 四、其它阿里系开源:联邦学习、Java Agent 框架等
🔹 1. FederatedScope:联邦学习平台
GitHub: alibaba/FederatedScope(约 1.5k★)
定位:支持大规模高效率异步训练的联邦学习平台
活跃度:2025 年仍被达摩院推荐,Repo 持续更新,活跃
🔹 2. Spring AI Alibaba:Java 世界的 Agentic AI 基础设施
GitHub 生态:
spring-ai-alibaba/examples(约 2.2k★)
spring-ai-alibaba/spring-ai-alibaba-admin(约 335★)
定位:为 Java 开发者提供 Agentic AI 框架与运行时
能力:多模型接入(通义、第三方 LLM)
Agent 工作流编排、观测与评估
活跃度:2025 年 12 月仍有 Commit 活动,与 DeepResearch 集成持续更新,中高活跃
🔹 3. TePDist、EasyNLP 等基础设施项目
TePDist:alibaba/TePDist(约 99★),HLO 级自动分布式训练系统
EasyNLP:alibaba/EasyNLP(约 2.2k★),综合 NLP Toolkit
活跃度:社区仍有使用与 Issue 互动,持续活跃
💡 五、整体观察与开发者选型指南
✅ 1. Star & 热度分布
- 万级 Star 阶梯:Qwen3 主线 / Coder / VL、WebAgent / DeepResearch、DB-GPT → 开源 LLM + Agent + AI 数据应用第一梯队
- 5k–10k 阶梯:EchoMimic 系列、FunClip、Qwen2.5-VL / Qwen-Agent、Qwen-Code → AI 应用层 + 工程支撑层爆款
- 1k 阶梯:Rynn 系列、VideoLLaMA3、AWorld、agentUniverse、VSAG、Qwen3-Embedding → 具身智能、视频理解、多智能体、向量检索关键基础设施
✅ 2. 2026 项目选型清单
| 方向 | 必看项目组合 | 为什么 |
|---|---|---|
| 具身智能/机器人 | RynnRCP + RynnVLA-001/002 + RynnEC | 覆盖物理建模→动作生成→协议适配整条链路 |
| 视频/多模态理解 | VideoLLaMA3 + Qwen2.5-VL / Qwen3-VL | 通用理解 + 细粒度时空物体分析(可搭配 VideoRefer) |
| Web Agent 产品 | WebAgent + DeepResearch + Qwen3 系列 | 端到端流水线已跑通,Java 体系用 Spring AI Alibaba 集成 |
| 数据库+大模型 | DB-GPT + VSAG + Qwen3-Embedding | 企业级落地标配,GraphRAG 处理复杂知识图谱 |
| 多智能体框架 | AWorld / agentUniverse + Qwen3 主线 | 金融/企业复杂业务用 agentUniverse,通用场景用 AWorld 工作流设计 |
| 数字人/互动形象 | OpenAvatarChat + EchoMimic/V2 + Qwen3-Omni | 轻量闭环快速搭建,追求高保真叠加 EchoMimic-V3 |
✅ 3. 三个关键判断
- 从“模型竞赛”到“Agent 体系竞赛”:2025 年阿里系最热项目全在 Agent / Multi-Agent 方向(WebAgent、DeepResearch、DB-GPT)
- 具身智能从“Demo”走向“可复现系统”:Rynn 系列让论文可复现,工业界信号明确
- 数据管道是生死线:DB-GPT、VSAG 证明,没可靠检索基建,LLM 难落地
🌟 六、写在最后:2026 年做 AI 应用,阿里系开源“积木”怎么用?
“2026 年做 AI 应用,门槛不是‘能不能用大模型’,
而是‘能不能合理使用开源积木上搭出生产级系统’。”
最底层算力与模型底座
- 通用大模型:Qwen3 主线 / Qwen2.5 主线
- 多模态模型:Qwen3-VL / Omni、VideoLLaMA3、Rynn 系列
- 嵌入与检索:Qwen3-Embedding / Qwen3-VL-Embedding + VSAG
中间层工程基础设施
- 分布式训练:TePDist
- NLP/ML 工程支撑:EasyNLP、FederatedScope
- 数据 + RAG + Workflow:DB-GPT、AWorld、agentUniverse、Qwen-Agent
上层应用完整系统样板
- Web 智能体:WebAgent、DeepResearch
- 数据智能应用:DB-GPT + 企业自有数据
- 多智能体业务编排:AWorld / agentUniverse
- 数字人互动:OpenAvatarChat + EchoMimic / Qwen3-Omni
如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!
第一阶段:从大模型系统设计入手,讲解大模型的主要方法;
第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案
大模型全套视频教程
200本大模型PDF书籍
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集
大模型产品经理资源合集
大模型项目实战合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓