微软开源推理模型：Phi-4-reasoning-plus

Phi-4-reasoning-plus 技术解读

一、模型概述

Phi-4-reasoning-plus 是微软研究院开发的一种前沿开源推理模型，基于 Phi-4 通过监督微调和强化学习进一步训练而成。该模型专注于高质量和高级推理能力的培养，旨在为小型高效模型提供强大的推理性能。其训练数据融合了合成提示和从公共领域网站筛选的优质数据，涵盖数学、科学和编程技能，并包含安全性和负责任 AI 的对齐数据。

二、模型架构与训练

Phi-4-reasoning-plus 与此前发布的 Phi-4 基础架构相同，拥有 14B 参数，采用密集解码器的 Transformer 模型。其输入形式为文本，特别适合聊天格式的提示，上下文长度可达 32k 令牌。模型在 32 个 H100-80G GPU 上训练，耗时 2.5 天，训练数据包含 16B 令牌，约 8.3B 独特令牌。

三、推理参数与使用建议

推理时建议采用 temperature=0.8、top_p=0.95 且 do_sample=True 的参数设置。对于复杂查询，可将最大令牌数设置为 32k 以支持更长的思维链。此外，还可将最大令牌数扩展至 64k，以处理更长序列并保持连贯性和逻辑一致性。推理时应使用 ChatML 模板，并包含系统提示。

四、性能评估与基准测试

Phi-4-reasoning-plus 在多项推理密集型任务上表现出色。在 AIME、GPQA-Diamond、OmniMath、LiveCodeBench 等基准测试中均取得了优异成绩。与 Phi-4 相比，在多数任务上性能均有显著提升。例如，在 AIME 2025 中准确率从 62.9% 提升至 78.0%，在 OmniMath 中从 76.6% 提升至 81.9%。

五、安全性和负责任 AI 考量

Phi-4-reasoning-plus 采用监督微调的稳健安全后训练方法，遵循严格的微软安全指南。通过与独立 AI 红队合作，对模型在普通用户和对抗性用户场景下的安全风险进行评估。尽管如此，该模型仍可能存在不公平、不可靠或冒犯性行为。开发者应考虑模型的常见限制，在特定下游用例中评估和缓解准确性、安全性和公平性问题，并遵循适用的法律法规。