微软发布了最新的开源推理模型套件“Phi-4-Reasoning

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

微软于2025年4月30日发布了最新的开源推理模型套件“Phi-4-Reasoning”,标志着在中等规模语言模型(14B参数)中实现高效复杂推理能力的又一重大突破。尽管大型语言模型(LLM)在自然语言处理任务中已表现出显著进步,但在数学问题求解、算法规划与编程等推理密集型任务中,模型规模、训练策略及推理效率仍是关键制约因素。许多表现优异的通用模型常常难以构建多步推理链或回溯中间步骤,导致在需要结构化推理的应用场景中表现不佳。同时,简单扩大模型参数虽有助于推理能力提升,但也带来巨大的计算与部署成本,限制其在教育、工程或决策支持等实际场景中的应用。

微软发布Phi-4推理模型家族

此次微软发布的Phi-4 Reasoning家族包括三个模型:Phi-4-reasoning、Phi-4-reasoning-plus与Phi-4-mini-reasoning,皆基于14B参数的Phi-4主干架构,专为数学、科学及软件工程等领域的复杂推理任务设计。不同模型版本在计算效率与输出精度之间提供多样化选择。其中,Phi-4-reasoning通过结构化监督微调优化,而Phi-4-reasoning-plus在此基础上进一步引入基于结果的强化学习机制,特别针对高方差数学竞赛类任务进行性能增强。

微软开放了模型权重及完整训练细节和评估日志,所有资源已发布于Hugging Face平台,确保模型的可复现性与研究透明度。

技术构成与训练方法革新

Phi-4-reasoning系列模型在基础架构与训练方法上做出了若干关键改进,主要包括:

  • 结构化监督微调(Structured SFT):团队精心挑选了逾140万条提示语,重点聚焦于Phi-4基础模型边缘能力范围的“边界问题”,强调多步骤推理而非简单事实回忆。训练数据由“o3-mini”模型在高推理模式下合成生成。
  • 思维链格式(Chain-of-Thought):模型输出中采用显式的<think>标签,引导模型将推理过程与最终答案分离,以实现更清晰的推理轨迹。
  • 扩展上下文处理能力:通过调整旋转位置编码(RoPE)的基本频率,使模型可处理最多32K token的输入,有助于更长的推理路径和多轮复杂问答。
  • 强化学习优化(Phi-4-reasoning-plus):该版本模型引入“群体相对策略优化”(Group Relative Policy Optimization,GRPO),基于约6400条精挑细选的数学问题进行微调。奖励函数设计上,鼓励模型生成正确、简洁、结构良好的输出,同时惩罚冗长、重复或格式错误的回答。

这种以数据为核心、关注输出结构的训练方法显著提升了模型在推理过程中的泛化能力,能有效应对未见过的符号推理任务。

评估结果与性能表现

Phi-4-reasoning系列在多个推理评估基准上展现出卓越表现,性能甚至可与显著更大的开源模型媲美:

  • Phi-4-reasoning-plus在特定领域任务上取得优异成绩,同时也展现出良好的跨领域泛化能力,如在旅行商问题(TSP)与三满足问题(3SAT)等组合优化任务中表现稳定,尽管其训练数据中并未包含相关样例。
  • 在指令遵循评估(IFEval)与长上下文问答(FlenQA)任务中的出色表现,也证明“思维链”训练格式有助于拓展模型在通用场景中的实用性。
  • 特别是在对高敏感性数据集如AIME 2025进行测试时,微软公开了50次生成结果的方差分布,结果显示Phi-4-reasoning-plus在一致性方面可与o3-mini匹敌,显著优于较小模型如DeepSeek-R1-Distill。

研究结论与未来展望

Phi-4 Reasoning系列模型展现出一种方法上高度严谨、规模上适中的小模型推理范式。通过精准的数据选型、结构调参与少量但关键的强化学习干预,微软验证了14B规模模型在多步骤推理任务中的出色能力,不仅实现了对更大模型的性能追平,甚至在部分任务中实现超越。

模型权重的开放与透明的基准测试也为未来小型LLM的发展设定了新标准。此类模型尤其适合应用于对解释性、成本与稳定性要求高的领域,如教育、工程及决策支持系统。微软预计后续将继续拓展模型在更多STEM学科的适应能力,优化解码策略,并探索更大规模的长期强化学习方案,以进一步增强模型的复杂推理能力与实用价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/904085.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch入门速通01:核心概念与选型指南

一、Elasticsearch 是什么&#xff1f; 一句话定义&#xff1a; 开源分布式搜索引擎&#xff0c;擅长处理海量数据的实时存储、搜索与分析&#xff0c;是ELK技术栈&#xff08;ElasticsearchKibanaBeatsLogstash&#xff09;的核心组件。 核心能力&#xff1a; 近实时搜索&…

【angular19】入门基础教程(三):关于angular里面的响应式数据入门使用

三个框架&#xff0c;都有响应式数据的概念。在angular里面有专门的叫法&#xff0c;响应式数据叫信号,英文名signal。其他两个框架式没有专门的名字的&#xff0c;统称为动态数据。这点可以说&#xff0c;angular还是太细了&#xff0c;细节值得点赞&#xff01;&#xff01; …

GitHub Actions 和 GitLab CI/CD 流水线设计

以下是关于 GitHub Actions 和 GitLab CI/CD 流水线设计 的基本知识总结: 一、核心概念对比 维度GitHub ActionsGitLab CI/CD配置方式YAML 文件(.github/workflows/*.yml).gitlab-ci.yml执行环境GitHub 托管 Runner / 自托管GitLab 共享 Runner / 自托管市场生态Actions Mar…

【网络编程】HTTP(超文本传输协议)详解

&#x1f984;个人主页:修修修也 &#x1f38f;所属专栏:网络编程 ⚙️操作环境:Visual Studio 2022 目录 &#x1f4cc;HTTP定义 &#x1f4cc;HTTP工作原理 1.客户端发起请求: 2.服务器处理请求: 3.客户端处理响应: &#x1f4cc;HTTP关键特性 &#x1f38f;HTTP请求方法 &am…

Centos小白之在CentOS8.5中安装Rabbitmq 3.10.8

注意事项 安装以及运行等其他操作&#xff0c;要使用root账号进行&#xff0c;否则会遇到很多麻烦的事情。 使用命令行进行远程登录 ssh root192.168.0.167 安装make 执行安装命令 yum -y install make gcc gcc-c kernel-devel m4 ncurses-devel openssl-devel这里有可能会…

SQL笔记——左连接、右连接、内连接

前言&#xff1a;总是忘记表连接的区别&#xff0c;在面试的时候也容易被问到&#xff0c;因此就好记性不如烂笔头吧 集合运算 有并集、交集、差集 联合查询*&#xff08;针对行合并的&#xff09;* union为关键字&#xff0c;就是将两个select的结果求并集&#xff08;此时重…

LeetCode - 19.删除链表的倒数第N个结点

目录 题目 解法一 双指针算法 核心思想 执行流程 具体例子 代码 解法二 两次遍历法 核心思想 执行流程 具体例子 代码 题目 19. 删除链表的倒数第 N 个结点 - 力扣&#xff08;LeetCode&#xff09; 解法一 双指针算法 核心思想 利用双指针间隔固定距离(n1)&a…

C# 编程核心:控制流与方法调用详解

在编程中&#xff0c;控制流和方法调用是构建程序逻辑的两大基石。它们决定了代码的执行顺序和模块化协作方式。本文将从基础概念出发&#xff0c;结合代码示例&#xff0c;深入解析这两部分内容。 控制流&#xff1a;程序执行的指挥棒 控制流决定了代码的执行路径&#xff0…

Sentinel学习

sentinel是阿里巴巴研发的一款微服务组件&#xff0c;主要为用户提供服务保护&#xff0c;包括限流熔断等措施 &#xff08;一&#xff09;主要功能 流量控制&#xff08;限流&#xff09;&#xff1a;比如限制1s内有多少请求能到达服务器&#xff0c;防止大量请求打崩服务器…

Linux中进程的属性:进程优先级

一、优先级和进程优先级 1.1什么是优先级 优先级就是获取某种资源的先后顺序&#xff0c;比如打饭时排队&#xff1a;排队就是在确认优先级 1.2为什么要有优先级 本质上其实是目标资源相对于需求者来说比较少&#xff0c;如CPU&#xff0c;磁盘&#xff0c;显示器&#xff…

基于LangChain 实现 Advanced RAG-后检索优化(上)-Reranker

摘要 Advanced RAG 的后检索优化&#xff0c;是指在检索环节完成后、最终响应生成前&#xff0c;通过一系列策略与技术对检索结果进行深度处理&#xff0c;旨在显著提升生成内容的相关性与质量。在这些优化手段中&#xff0c;重排序优化&#xff08;Reranker&#xff09;作为核…

【云备份】热点管理模块

目录 1.热点管理文件的基本思路 2.热点管理类的设计 3.热点管理类的实现 1.热点管理文件的基本思路 服务器端的热点文件管理是对上传的非热点文件进行压缩存储&#xff0c;节省磁盘空间。 而热点文件的判断在于上传的文件的最后一次访问时间是否在热点判断时间之内。 实…

LeetCode 560. 和为 K 的子数组 | 前缀和与哈希表的巧妙应用

文章目录 方法思路&#xff1a;前缀和 哈希表核心思想关键步骤 代码实现复杂度分析示例解析总结 题目描述 给定一个整数数组 nums 和一个整数 k&#xff0c;请统计并返回该数组中和为 k 的子数组的数量。 子数组是数组中连续的非空元素序列。 示例 输入&#xff1a;nums …

Windows配置grpc

Windows配置grpc 方法一1. 使用git下载grph下载速度慢可以使用国内镜像1.1 更新子模块 2. 使用Cmake进行编译2.1 GUI编译2.2 命令行直接编译 3. 使用Visual Studio 生成解决方法 方法二1. 安装 vcpkg3.配置vckg的环境变量2. 使用 vcpkg 安装 gRPC3. 安装 Protobuf4. 配置 CMake…

【算法基础】快速排序算法 - JAVA

一、算法基础 1.1 什么是快速排序 快速排序&#xff08;Quick Sort&#xff09;是一种高效的分治排序算法&#xff0c;由英国计算机科学家Tony Hoare于1960年提出。它的核心思想是&#xff1a; 选择一个基准元素&#xff08;pivot&#xff09;将数组分成两部分&#xff1a;小…

Linux用户管理命令和用户组管理命令

一、用户管理命令 1.1、adduser 添加新用户 1、基本语法 adduser 用户名 &#xff08;功能描述&#xff1a;添加新用户&#xff09; 应用场景1&#xff1a;企业开发&#xff0c;多人协同&#xff08;也会有多人使用相同的一个低权限用户&#xff09;。 应用场景2&#x…

记录两个免费开源又好用的后台模版vue3

一.element-plus-admin 一套基于vue3、element-plus、typesScript、vite的后台集成方案 1.简介 vue-element-plus-admin 是一个基于 element-plus 免费开源的中后台模版。使用了最新的 Vue3&#xff0c;Vite&#xff0c;Typescript等主流技术开发&#xff0c;开箱即用的中后…

Flip PDF Plus Corp7.7.22电子书制作软件

flip pdf plus corporate7.7.22中文版由FlipBuilder官方出品的一款企业级的翻页电子书制作软件&#xff0c;拥有丰富的模板&#xff0c;主题和动画场景&#xff0c;每本书最大页数1000页&#xff0c;每本书的最大大小1GB&#xff0c;即可以帮助企业用户制作好丰富的电子书籍。 …

C语言蓝桥杯真题代码

以下是不同届蓝桥杯C语言真题代码示例&#xff0c;供参考&#xff1a; 第十三届蓝桥杯省赛 C语言大学B组 真题&#xff1a;卡片 题目&#xff1a;小蓝有很多数字卡片&#xff0c;每张卡片上都是数字1-9。他想拼出1到n的数列&#xff0c;每张卡片只能用一次&#xff0c;求最大的…

[Windows] Kazumi番剧采集v1.6.9:支持自定义规则+在线观看+弹幕,跨平台下载

[Windows] Kazumi番剧采集 链接&#xff1a;https://pan.xunlei.com/s/VOPLMhEQD7qixvAnoy73NUK9A1?pwdtu6i# Kazumi是一款基于框架; 开发的轻量级番剧采集工具&#xff0c;专为ACG爱好者设计。通过;自定义XPath规则; 实现精准内容抓取&#xff0c;支持多平台&#xff08;An…