AgentCPM-Explore开源,4B 参数突破端侧智能体模型性能壁垒

当全行业还在争论 30B 能否挑战万亿参数时,我们给出了一个更激进的答案: 4B。没有万亿参数的算力堆砌,没有百万级数据的暴力灌入,清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的 AgentCPM-Explore 智能体模型基于仅 4B 参数的模型,在深度探索类任务上取得同尺寸模型 SOTA、越级赶上甚至超越 8B 级 SOTA 模型、比肩部分 30B 级以上和闭源大模型的效果,真正让大模型的长程任务处理能力有望部署于端侧。

来自:OpenBMB

💡 AgentCPM-Explore 核心亮点一览

  • 打破参数壁垒:首个具备 GAIA、Xbench、Browsercomp 等 8 个长难智能体任务处理能力的 4B 端侧模型,重新定义小模型性能天花板;

  • 长程深度探索:最高可实现超过 100 轮不重复且稳定的环境交互,持续深度探索直至任务准确完成;

  • 全流程开源:在开源模型的基础上进一步开源配套的工具沙盒统一管理调度平台 AgentDock、全异步强化学习训练框架 AgentRL、智能体能力一键式测评平台 AgentToLeaP,支持社区全流程复现与自定义扩展。

➤ 相关链接

Github:

🔗 https://github.com/OpenBMB/AgentCPM

HuggingFace:

🔗 https://huggingface.co/openbmb/AgentCPM-Explore

ModelScope:

🔗 https://modelscope.cn/models/OpenBMB/AgentCPM-Explore

GitCode:

🔗 https://gitcode.com/OpenBMB/AgentCPM

魔乐社区:

🔗 https://modelers.cn/models/OpenBMB/AgentCPM-Explore


更高能力密度

端侧智能体模型SOTA表现

AgentCPM-Explore在GAIA、HLE、Browsercomp、Browsercomp(ZH)、WebWalker、FRAMES、Xbench-DeepResesarch、Seal-0 主流智能体评测基准上均展现出极致的参数效能比,不仅取得同尺寸模型 SOTA,而且越级赶上甚至超越两倍参数量(8B 级)SOTA 模型、比肩部分 30B 级以上和闭源大模型的效果。

表1:8 个智能体评测任务榜单

在 Xbench-DeepResearch 上 AgentCPM-Explore 的表现超越了 OpenAI-o3,Claude-4.5-Sonnet 等闭源大模型,显著超越了不同量级 SOTA 模型的表现趋势线,展现出了更高的能力密度。

图1:Xbench 数据集模型表现效果分析(注:深度搜索任务通常存在较大的采样波动(可达 20%)。AgentCPM-Explore(及 MiroThinker)采用了高标准的 Avg@8 ,相比业界的单次/3 次设定,可将波动误差控制在 2% 以内,提供最真实、可复现的性能对比)


更宽能力边界

深挖端侧智能体模型极致潜能

4B 端侧模型在 GAIA 上有希望做对几乎全部的题目如图,基于 AgentDock 和 AgentRL 基建下的稳定的后训练,AgentCPM-Explore 实现了相较于 Qwen3-4B-thinking-2507 的成倍效果跃升,在允许多次尝试的情况下,能够解决 GAIA 文本任务中 95% 以上的题目。由此可见,小模型并非“能力受限”,而是“潜力被低估”。在正确的训练框架下,端侧模型完全具备解决绝大多数复杂难题的潜质。

图2:原模型 Qwen3-4B-thinking-2507 与经过后训练的 AgentCPM-Explore 能力边界一览


更多智能行为

端侧智能体模型展现“类人”思考逻辑

在深度探索任务中,AgentCPM-Explore 打破了小模型“只会死记硬背”的刻板印象。如视频所示,面对“美国历届总统的出生地中,哪两个城市之间东西相距最远?”这一复杂难题,它像一位经验丰富的人类研究员一样思考:

  • 它会“质疑”:拒绝盲信工具。当发现“Brookline, MA”被列为最东端时,它判断摘要可能遗漏了关键信息,果断要求重新核查全量数据;

  • “求真”:不满足于被压缩的二手信息,主动寻找完整版原始数据,确保决策基于事实全貌;

  • 它懂“变通”:搜索不通就爬表,路径不对就搜库。从通用搜索到 GitHub 精准定位,它能根据反馈实时调整战术;

  • 它很“执着”:面对连续的搜索无果不气馁,而是不断寻找替代信源,直到挖掘出最可靠的数据源。


全流程开源基建

支持自定义扩展

我们不仅开源了模型,更开源了从 Base 模型(GAIA25.24%)进化至 SOTA 模型(GAIA63.90%)的全流程代码。通过以下三大基建,开发者可以轻松复现性能翻倍的训练过程,并快速实现私有化部署与自定义扩展。

(1)AgentDock:工具沙盒统一管理调度平台

  • 高并发工具集成:原生支持 16 个 MCP 服务及百余种工具。通过多版本轮询与负载均衡机制,支持核心高频使用工具 100+QPS 高并发调用。

  • 健全容错机制:实现输出标准化、自动重试、服务自愈及备用工具自动切换,确保长程任务持续运行的稳定性。

  • 统一沙盒管理:实现任务分发、容器编排与动态路由的统一管控。智能体所在客户端仅需关注“能力接口”,无需处理复杂的网络与并发细节,支持工具热插拔与弹性扩缩容。

(2)AgentRL:极简高效的异步强化学习框架

  • 零门槛接入:只需标准 ChatCompletions 接口即可无缝接入训练流程。

  • 极简代码架构:核心实现仅 7 个文件、1000+ 行代码,极大降低学习与二开门槛,方便快速验证新想法。

  • 全异步训推同卡:支持采样与训练在同一 GPU 上全异步流水线运行,极致压榨硬件性能。

  • 解耦与并行:训采完全解耦,采样进程可独立扩缩容。兼容 PyTorch 原生并行及 FSDP2/Tensor Parallel/Context Parallel,轻松支持 128K+ 长文本训练。

(3)AgentToLeaP:智能体能力一键式评测平台

  • 一键全自动化:支持 GAIA、HLE 等 8 个主流榜单的一键测评,一行命令即可启动全流程评测。

  • 模块化扩展:评测集独立管理,结果统一输出。开发者可参考文档,轻松接入自定义测试集。


端侧模型性能“以小博大”的关键点

4B 模型有限的参数容量在面对长周期、多交互的智能体任务时,容错空间极低。我们在实战中发现提升小模型智能体性能的三大核心挑战,并探索出了行之有效的应对方法。

以“模型融合”破解 SFT 过拟合小模型在 SFT 阶段极易陷入“死记硬背”,我们实验发现,仅调整Prompt 中无关的工具描述,模型性能就会大幅下滑。这是典型的过拟合:模型牺牲了通用决策能力,记住了特定的任务模式。 我们采用参数融合技术,将训练后的“专用模型”与训练前的“通用模型”进行加权融合。其背后的机制在于:通专模型一致的泛化参数得以保留,互补的专业能力得以强化,而因过拟合产生的随机噪音参数则在融合中相互抵消。实测显示,融合后的模型在智能体任务上性能提升约 7%,有效实现了通专能力的平衡。

以“信号去噪”修正 RL 奖励偏差智能体任务的轨迹动辄数十步,小模型对长链路中的负面信号极其敏感。一旦长序列在最后一步出错,传统 RL 会将惩罚回传至整条链路,导致中间正确的推理步骤也被“误杀”,致使模型训练崩塌。 我们实施严格的奖励信号去噪。筛选真正具备策略更新价值的轨迹,对于长步骤但最终失败的样本,不进行全轨迹惩罚,避免负面信号污染模型已学到的正确推理逻辑,保护小模型脆弱的训练。

以“信息精炼”对抗推理长文干扰在模型推理时,网页返回的冗长噪音对小模型影响极大。对比实验表明,使用不同能力的模型(如 Qwen3-4B vs DeepSeek-v3.1)对上下文进行摘要,最终 GAIA 性能差异可达 10%。 我们引入上下文信息精炼机制,利用上下文管理工具或多模型协作的方式专门负责网页内容的过滤与摘要,在信息进入 4B 模型前完成信息过滤。通过构建高质量的“学习环境”,让小模型能聚焦于关键信息的处理,避免在海量噪声中迷失。

更多细节内容我们将在技术报告中详细描述。


共建下一代端侧智能体生态

智无极限,在这个低门槛、高效率的“端侧智能体模型研究平台”,我们诚邀各路伙伴加入共建:

  • 研究者:请在我们的框架上大胆验证新想法,复现实验,甚至对我们的结论提出挑战;

  • 工程师:助我们优化训练/推理效率、适配更多基座,打造更极致的工程体验;

  • 评测玩家:用更刁钻挑战的测试样例推动评测,帮我们发现那些未被覆盖的盲区。

我们相信,端侧智能体模型的未来不仅广阔,更因开源而触手可及,一起来探索吧 🚀


📧合作联系:agentcpm@modelbest.cn;

💬技术交流:扫描下方二维码加入讨论群,期待您的建议与反馈。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1156402.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Keil安装教程图解说明:从下载到环境部署全流程

从零开始搭建Keil开发环境:手把手带你完成安装、配置与避坑指南 你是不是也曾在第一次接触嵌入式开发时,面对“Keil怎么装?”“为什么编译报错?”“程序烧不进去怎么办?”这些问题一头雾水?别担心&#xf…

CMSIS底层初始化流程详解:系统学习手册

深入理解CMSIS底层初始化:从启动到main的每一步你有没有遇到过这样的情况?代码烧录成功,下载器能连上,但单片机就是“不干活”——LED不闪、串口没输出。查了一圈外设配置都没问题,最后发现原来是系统时钟没配对&#…

从零开始搭建工控平台:STLink驱动安装操作指南

从零搭建工控开发环境:手把手搞定STLink驱动安装与调试链配置 你有没有遇到过这样的场景? 刚拿到一块崭新的Nucleo开发板,兴冲冲插上电脑准备烧录第一个“Hello World”程序,结果STM32CubeIDE弹出一串红字:“ No ST…

AUTOSAR架构图基础讲解:手把手认识经典平台结构

手把手拆解AUTOSAR架构图:从分层逻辑到实战落地你有没有遇到过这样的场景?接手一个ECU项目,代码里满是直接操作寄存器的裸机风格函数,换颗MCU就得重写大半;或者多个供应商交付的模块集成时接口对不上,调试几…

提示工程架构师:设计灵活的AI提示系统反馈与响应机制

提示工程架构师:设计灵活的AI提示系统反馈与响应机制——让AI从“答对题”到“会聊天” 关键词 提示工程架构、反馈闭环机制、动态Prompt生成、上下文感知、多模态响应、Prompt版本控制、强化学习优化 摘要 你有没有过这样的体验?跟AI聊天时,…

ego1开发板大作业vivado实现交通灯控制系统图解说明

ego1开发板实战:用FPGA打造一个会“思考”的交通灯系统你有没有想过,路口那几盏看似简单的红绿灯,其实背后藏着一套精密的“大脑”?它要准确判断何时变灯、确保两个方向不会同时放行、还要能应对突发状况——比如救护车经过时临时…

前后端分离房屋租赁管理系统系统|SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

💡实话实说:有自己的项目库存,不需要找别人拿货再加价,所以能给到超低价格。摘要 随着互联网技术的快速发展,传统房屋租赁管理方式逐渐暴露出信息不透明、效率低下等问题。在线房屋租赁平台的出现为租户和房东提供了便…

价值投资中的智能农业灌溉优化系统分析

价值投资中的智能农业灌溉优化系统分析 关键词:价值投资、智能农业灌溉、优化系统、数据分析、精准灌溉 摘要:本文聚焦于价值投资视角下的智能农业灌溉优化系统。首先介绍了该系统的背景,包括目的范围、预期读者等内容。接着阐述了核心概念与联系,深入剖析其原理和架构,并…

波长分割复用 + 无源分光:单纤双向如何撑起全光接入?

在光纤通信领域,尤其是PON(无源光网络)系统中,OLT(光线路终端)、分光器与ONU(光网络单元)三者构成了宽带接入的核心架构。而支撑这一架构高效运行的关键技术之一,便是单纤…

企业级养老智慧服务平台管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

💡实话实说:有自己的项目库存,不需要找别人拿货再加价,所以能给到超低价格。摘要 随着人口老龄化趋势的加剧,传统的养老服务模式已难以满足现代社会的需求,智慧养老成为解决养老问题的重要方向。企业级养老…

基于STM32H7的串口不定长接收图解说明

一文搞懂STM32H7串口不定长接收:DMA 空闲中断的实战精髓 你有没有遇到过这样的场景? 设备通过串口发来一帧长度不固定的数据——可能是10字节的传感器采样,也可能是上百字节的配置命令。你用传统轮询方式处理,CPU占用飙到80%&am…

使用Keil进行Cortex-M低功耗模式开发操作指南

Keil环境下Cortex-M低功耗开发实战指南:从配置到调试的完整路径你有没有遇到过这样的情况:代码里明明调用了__WFI(),系统却像“假睡”一样,电流纹丝不动?或者设备进入Stop模式后,再也叫不醒了?这…

vivado2020.2安装教程:Windows系统入门必看

Vivado 2020.2 安装实战全解析:从零搭建高效 FPGA 开发环境 你是不是也曾在尝试安装 Vivado 的时候,被闪退、驱动失败、许可证无效等问题搞得焦头烂额?明明按照官网步骤一步步来,结果还是“卡在最后一步”。别急——这并不是你的…

系统学习CubeMX中LTDC显示控制器驱动生成

从零构建稳定流畅的嵌入式显示系统:CubeMX驱动LTDC实战全解析你有没有遇到过这样的场景?精心设计的UI在PC模拟器上丝滑如德芙,烧进STM32板子后却卡顿撕裂、花屏乱码,调试几天都找不到根源。如果你正在用STM32做图形界面开发&#…

AI原生应用领域:幻觉缓解的创新解决方案

AI原生应用领域:幻觉缓解的创新解决方案关键词:AI原生应用、幻觉缓解、创新解决方案、人工智能、自然语言处理摘要:本文聚焦于AI原生应用领域中幻觉问题的缓解,首先介绍了AI幻觉的背景知识,包括目的、预期读者等内容。…

sbit入门必看:51单片机特殊功能寄存器定义详解

从点亮一个LED开始:深入理解51单片机中的sbit位定义你有没有过这样的经历?在调试一段51单片机代码时,看到别人用P1_0 1;就能直接控制某个引脚的电平,而自己还在写P1 | 0x01;和P1 & ~0x01;来翻转位状态。更奇怪的是——人家的…

STM32CubeMX安装教程:手把手带你完成开发环境搭建

从零开始搭建STM32开发环境:手把手教你搞定CubeMX安装与配置 你是不是也经历过这样的场景?刚买来一块STM32开发板,兴致勃勃地打开电脑准备点个LED,结果卡在第一步——连开发工具都装不起来。查了一堆教程,有的说要先装…

手把手教程:keil5编译器5.06下载及IDE初始化设置

手把手教你搭建稳定可靠的 Keil5 开发环境:从编译器下载到项目初始化 你有没有遇到过这样的情况?新接手一个老项目,打开 Keil 工程却提示“找不到 armcc”;或者代码明明能编译,烧录进去后单片机就是不亮灯&#xff1b…

log_softmax和sigmoid防止溢出原理

1sum_softmax推理指数函数的输出永远最大只有 1,前面常量不涉及指数计算基本不会溢出。2 sigmoid的安全处理对于常见操作# 极易下溢出!如果 logits 很小,pred 变成 0,log(0) 报错 pred torch.sigmoid(logits) loss torch.nn.BCE…

Proteus元器件大全手把手教程:从认识元件开始

从零开始玩转Proteus:元器件认知与仿真实战全解析你是不是也曾在打开Proteus时,面对那个“P”按钮发愣——点进去后成千上万的元件名称扑面而来,RES、CAP、NPN、AT89C51……看得眼花缭乱?别急。每一个电子工程师的成长路上&#x…