小米首个推理大模型开源——Xiaomi MiMo,为推理而战!

名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》
创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊)

目录

    • 一、MiMo的惊人表现:小参数量,大能力
    • 二、双轮驱动:预训练+后训练的联动创新
      • 1》预训练阶段:见多识广的推理模式
      • 2》后训练阶段:高效稳定的强化学习
    • 四、开源共享:推动社区协作创新

很高兴你打开了这篇博客,更多AI知识,请关注我、订阅专栏《AI知识图谱》,内容持续更新中…

在大语言模型不断迭代发展的今天,一个关键问题始终困扰着研究人员:如何在预训练模型增长瓶颈的情况下,进一步激发模型的推理潜能?

小米团队针对这一挑战,推出了首个专为推理(Reasoning)而生的开源大模型——“Xiaomi MiMo”。这一技术突破不仅标志着小米正式进军大模型研发领域,更为推理能力的提升提供了新的解决方案。

在这里插入图片描述
图片来源:Xiaomi MiMo官方

一、MiMo的惊人表现:小参数量,大能力

值得关注的是,MiMo在参数规模上相对"小巧",仅有7B参数。然而,在实际性能上,它却展现出了超越预期的能力。在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)这两个公开测评集上,MiMo-7B已经超越了OpenAI的闭源推理模型o1-mini,以及阿里巴巴Qwen更大规模的开源推理模型QwQ-32B-Preview。

在这里插入图片描述图片来源:Xiaomi MiMo官方

在这里插入图片描述
图片来源:HuggingFace平台截图

那这一结果意味着什么?

它表明在大模型领域,参数数量并非唯一决定性因素,deepseek之前也证明了这种情况,优化的训练方法和算法同样至关重要。MiMo用实际表现证明了这一点,为资源受限环境下的高性能AI应用提供了可能性。

二、双轮驱动:预训练+后训练的联动创新

MiMo的卓越推理能力并非偶然,而是源于其在预训练和后训练两个阶段的多层面创新。让我们深入理解这两个关键环节:

在这里插入图片描述

1》预训练阶段:见多识广的推理模式

在预训练阶段,MiMo团队的核心目标是让模型接触并学习更多样化的推理模式。具体措施包括:

  1. 数据层面:团队重点挖掘了富含推理过程的语料,并特别合成了约200B tokens的推理数据

在这里插入图片描述
图片来源:Xiaomi MiMo官方

  1. 训练策略:采用了三阶段递进式训练方法,逐步提高训练难度,累计训练达25T tokens。

这种渐进式的训练方法使模型能够从简单到复杂地掌握推理技能,形成了坚实的基础能力。

2》后训练阶段:高效稳定的强化学习

预训练之后,MiMo团队并未止步,而是在后训练阶段进行了进一步的优化:

  1. 算法创新:提出了"Test Difficulty Driven Reward"机制,有效缓解了困难算法问题中的奖励稀疏问题;同时引入"Easy Data Re-Sampling"策略,显著提升了强化学习训练的稳定性。
  2. 框架优化:设计了"Seamless Rollout"系统,使强化学习训练加速达2.29倍,验证过程加速1.96倍。

在这里插入图片描述
图片来源:Xiaomi MiMo官方

这些创新使MiMo在相同的强化学习训练数据条件下,展现出明显优于其他模型的潜力。数据显示,MiMo-7B的数学和代码领域强化学习能力显著领先于DeepSeek-R1-Distill-7B和Qwen2.5-32B等广泛使用的强化学习起步模型。

四、开源共享:推动社区协作创新

小米已将MiMo-7B全系列模型开源至HuggingFace平台https://huggingface.co/XiaomiMiMo

在这里插入图片描述
图片来源:HuggingFace平台截图

包括四个不同版本的模型。同时,所有技术细节也已公开,感兴趣的开发者和研究人员可以在GitHub上查阅完整的技术报告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf。

在这里插入图片描述
图片来源:Xiaomi MiMo官方

这种全面开源的做法,不仅体现了小米对开放创新的支持,也为AI社区提供了宝贵的学习和研究资源。开发者可以基于这些模型进行进一步的优化和应用开发,共同推动推理大模型领域的进步。

MiMo来自"小米大模型Core团队"的初步尝试。虽然2025年可能被视为大模型发展的"后半程",但小米团队坚信AGI(通用人工智能)的征途仍然漫长。小米表示将持续从务实创新出发,勇敢探索未知领域,用思考突破智能边界,用创造回应每一次好奇。

在这里插入图片描述
图片来源:Xiaomi MiMo官方

Xiaomi MiMo的开源发布,为推理大模型领域树立了新的标杆。它证明了即使在参数量相对较小的情况下,通过优化的训练方法和算法创新,同样可以实现卓越的推理性能。这一成果不仅展示了小米在AI领域的技术实力,也为解决大模型推理瓶颈提供了新的思路和方案。

对于开发者和研究人员而言,MiMo的开源无疑提供了一个宝贵的学习和应用资源。我们可以期待,随着更多开发者参与到MiMo的应用和优化中,这一模型将在各种实际场景中发挥更大的价值,推动AI技术向更加智能和高效的方向发展。


您对Xiaomi MiMo有什么看法或问题?欢迎在评论区分享您的想法,一起探讨推理大模型的未来发展!

创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/903764.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《2025全球机器学习技术大会:阿里云讲师张玉明深度剖析通义灵码AI程序员》

4 月 18 日 - 19 日,由 CSDN & Boolan 联合举办的 2025 全球机器学习技术大会(ML-Summit)于上海顺利举行。大会聚焦人工智能与机器学习前沿技术,汇聚了来自科技与人工智能领域的数位顶尖专家以及数千名开发者和研究者&#xf…

MySQL事务隔离级别详解

MySQL事务隔离级别详解 事务隔离级别概述 MySQL支持四种标准的事务隔离级别,它们定义了事务在并发环境下的可见性规则和可能出现的并发问题: READ UNCOMMITTED(读未提交) • 最低隔离级别 • 事务可以读取其他事务未提交的数据&…

计算机视觉(CV)技术的优势和挑战(本片为InsCode)

计算机视觉(CV)技术是一种利用计算机和算法来模拟人类视觉实现图像和视频处理的技术。它在各个领域都有着广泛的应用,具有许多优势和挑战。 优势: 自动化:CV 技术可以自动识别、分类、跟踪和分析图像和视频数据&…

Android JIT编译:adb shell cmd package compile选项

Android JIT编译:adb shell cmd package compile选项 例如: adb shell cmd package compile -m speed -f --full 包名 配置参数指令说明: compile [-r COMPILATION_REASON] [-m COMPILER_FILTER] [-p PRIORITY] [-f] [--primary-dex] …

Android Kotlin 项目集成 Firebase Cloud Messaging (FCM) 全攻略

Firebase Cloud Messaging (FCM) 是 Google 提供的跨平台消息推送解决方案。以下是在 Android Kotlin 项目中集成 FCM 的详细步骤。 一、前期准备 1. 创建 Firebase 项目 访问 Firebase 控制台点击"添加项目",按照向导创建新项目项目创建完成后&#x…

搭建PCDN大节点,服务器该怎么配

搭建P2P大节点时,服务器要怎么配呢?需要综合考虑硬件性能、网络带宽、存储能力、系统架构以及安全性等多个方面,以确保节点能够高效、稳定地运行。 一、硬件配置 CPU:选择高性能的多核处理器,以满足高并发处理需求。核…

(done) 吴恩达版提示词工程 8. 聊天机器人 (聊天格式设计,上下文内容,点餐机器人)

视频:https://www.bilibili.com/video/BV1Z14y1Z7LJ/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c7355c5490fc600 别人的笔记:https://zhuanlan.zhihu.com/p/626966526 8. 聊天机器人(Chatbot) …

AtCoder Beginner Contest 403(题解ABCDEF)

A - Odd Position Sum #1.奇数数位和 #include<iostream> #include<vector> #include<stdio.h> #include<map> #include<string> #include<algorithm> #include<queue> #include<cstring> #include<stack> #include&l…

【Game】Powerful——Abandoned Ruins(9)

文章目录 1、新增古玩2、机关机制3、探索法宝4、智斗强敌5、地图6、参考 2025 年 1 月迎来的新玩法——荒废遗迹 每周四个宝藏铲&#xff08;老玩法&#xff09;或者两个遗迹线索&#xff08;新玩法&#xff09;&#xff0c;3 个宝藏铲也可以换一个遗迹线索&#xff0c;之前没时…

构建网页版IPFS去中心化网盘

前言&#xff1a;我把它命名为无限网盘 Unlimited network disks&#xff08;ULND&#xff09;&#xff0c;可以实现简单的去中心化存储&#xff0c;其实实现起来并不难&#xff0c;还是依靠强大的IPFS&#xff0c;跟着我一步一步做就可以了。 第一步&#xff1a;准备开发环境…

国标GB28181视频平台EasyGBS在物业视频安防管理服务中的应用方案​

一、方案背景​ 在现代物业服务中&#xff0c;高效的安全管理与便捷的服务运营至关重要。随着科技的不断发展&#xff0c;物业行业对智能化、集成化管理系统的需求日益增长。EasyGBS作为一款基于国标GB28181协议的视频监控平台&#xff0c;具备强大的视频管理与集成能力&#…

[Unity]设置自动打包脚本

背景 我们经常会使用自动打包功能 文件名称: AutoBuild.csusing System.IO; using System.Linq; using UnityEditor; using UnityEngine;public class AutoBuilder {[MenuItem("Build/GetCurrentBuildTarget")]public static void GetCurrentBuildTarget(){Debug.L…

正点原子STM32H743单片机实现ADC多通道检测

目标 使用STM32CubeMX工具&#xff0c;配置ADC相关参数&#xff0c;实现在STM32H743单片机上获取ADC多通道电压值。共14个ADC引脚&#xff0c;ADC2有5个&#xff0c;ADC3有9个&#xff0c;全部设置单通道 ADC引脚 PF3PF4PF5PF10PC0PC2PC3PH2PH3PA3PB0PB1PA4PA5PA6 STM32cube…

深度学习基础(四)——计算量(FLOPs)、参数量(Params)、计算速度(FLOPS/TOPS))

一、计算量FLOPs FLOPs&#xff0c;全称为Floating Point Operations, (s为复数缩写&#xff09;&#xff0c;浮点运算数&#xff0c;指模型完成一次前向传播所需的浮点运算次数&#xff0c;可以理解为计算量&#xff08;模型的时间复杂度&#xff09;&#xff0c;用来衡量算法…

电子秤检测管理系统开发实战:从数据采集到可视化大屏

简介 电子秤作为现代工业生产和商业流通中的核心计量设备,其准确性直接关系到产品质量和交易公平。针对仙贝生产企业的电子秤管理需求,我们开发了一套集电子秤检测信息录入、产品信息管理、实时称重数据采集和后台可视化大屏于一体的综合管理系统。该系统基于Django框架构建…

Cesium添加WMS,WMTS,地形图图,3D Tiles数据

在 Cesium 中&#xff0c;你可以添加 WMS、WMTS、地形图 和 3D Tiles 数据源。以下是详细的实现方法&#xff1a; 1. 添加 WMS 服务 WMS&#xff08;Web Map Service&#xff09;是一种动态地图服务&#xff0c;适用于加载栅格地图图层。 代码示例 const viewer new Cesium…

数据库基本概念:数据库的定义、特点、分类、组成、作用

一&#xff1a;数据库相关概念 1.1 定义 &#xff08;1&#xff09;数据库&#xff1a;存储数据的仓库 &#xff08;2&#xff09;数据库管理系统&#xff1a;模拟和管理数据库的大型软件 &#xff08;3&#xff09;SQL&#xff1a;操作关系型数据库的编程语言&#xff0c;定义…

【项目篇之消息序列化】仿照RabbitMQ模拟实现消息队列

实现消息序列化 为什么不使用JSON来序列化直接使用二进制序列化实现序列化方法toBytes()1&#xff1a; 创建内存缓冲区​​2 &#xff1a;创建对象序列化通道​3&#xff1a;执行序列化操作​4&#xff1a;提取二进制数据&#xff0c;转换成byte[]序列化图示流程&#xff1a;序…

单片机-89C51部分:13、看门狗

飞书文档https://x509p6c8to.feishu.cn/wiki/LefkwDPU7iUUWBkfKE9cGLvonSh 一、作用 程序发生死循环的时候&#xff08;跑飞&#xff09;&#xff0c;能够自动复位。 启动看门狗计数器->计数器计数->指定时间内不对计数器赋值&#xff08;主程序跑飞&#xff0c;无法喂…

C++23/26 静态反射机制深度解析:编译时元编程的新纪元

目录 引言 一、C静态反射的核心特性 1. 编译时元数据获取 2. 元信息操作的语法革新 3. 与现有特性的深度融合 二、应用场景&#xff1a;从理论到实践 1. 序列化与反序列化 2. 领域特定语言&#xff08;DSL&#xff09;与代码生成 3. 动态插件系统 4. 调试与元编程增强…