AI日报 · 2025年5月15日|GPT-4.1 登陆 ChatGPT
1、OpenAI 在 ChatGPT 全面开放 GPT-4.1 与 GPT-4.1 mini
北京时间 5 月 14 日晚,OpenAI 在官方 Release Notes 中宣布:专为复杂代码与精细指令场景打造的 GPT-4.1 正式加入 ChatGPT,Plus/Pro/Team 付费用户即日起可在模型下拉菜单中直接调用;企业版与 Edu 版将于数周内接入。更新同 步推出 GPT-4.1 mini——在保持推理深度的同时大幅缩短响应延迟,取代原 GPT-4o mini 成为免费层超额 fallback 模型。
OpenAI 同时上线「Safety Evaluations Hub」,公开 GPT-4.1 系列最新安全基准数据,以期提升外部透明度。官方强调,两款模型沿用 GPT-4o 相同速率限制,且在编码、网页开发与工具调用链路上具备更高稳健度,预计将成为开发者与高级用户日常工作的“主力编译器”。[1]
2、API 直接吃 PDF:OpenAI 推出原生文件输入能力
5 月 15 日,OpenAI 在开发者社区公告板发布 「Direct PDF file input now supported in the API」,首次开放 PDF 作为 file_id
直传格式,无需预先转为文本或多页图片。新能力意味着开发者可在一次调用中上传、解析并让模型对复杂 PDF 结构(目录、表格、批注)进行语义检索、摘要或链式推理。官方示例还展示了结合 o4-mini-high 进行长链路推理的最佳实践。此举将进一步降低文档智能化门槛,为 RAG、合同审核、科研论文导航等场景提供即插即用的后端能力。[2]
3、Google DeepMind 发布 AlphaEvolve:Gemini 驱动的算法设计代理
DeepMind 于 5 月 14 日深夜(PDT)发布博客,推出 AlphaEvolve —— 基于 Gemini 2.5 系列的跨语言多模态编码代理。
官方称,AlphaEvolve 通过自监督进化搜索结合强化学习,可在数小时内自动生成高质量近似最优算法,并支持 Python/C++/Rust 等语言输出;内部基准显示在图着色、约束满足与半定规划等 12 个经典难题上平均超越人类专家基线 8.3 %。团队还开源了评测框架与部分搜索日志,邀请学术界共同验证可重复性。该项目被视作 AlphaGo 系列“搜索+RL”路线在通用算法设计上的首次产品化落地。[3]
4、Hugging Face × Kaggle:模型一键直连笔记本生态
开源社区旗舰 Hugging Face 5 月 14 日宣布与 Google Kaggle 达成深度集成:即日起,Hugging Face Hub 模型页新增 “Open in Kaggle” 按钮,用户可一键生成预填代码的 Kaggle Notebook;反向地,Kaggle 模型页也同步展示 Hub 元数据与 Spaces 示例。双方还自动为 Notebook 中引用且尚未托管的模型创建 Hub Entry,打通社区示例与数据血缘。官方博客指出,该集成后续将支持离线竞赛场景与私有模型令牌透传,目标是“让任何开发者在零配置下练手最前沿开源 LLM”。[4]
5、DeepSeek-V3 硬件共设论文披露 2 048 张 H800 GPU 训练细节
DeepSeek 团队于 5 月 14 日 20:39 (北京时间)在 arXiv 发布论文《Insights into DeepSeek-V3》。
“硬件–模型协同”成为核心主题:团队针对 H800 GPU 显存与带宽限制提出 Multi-head Latent Attention、FP8 混精度与多平面网络拓扑,将 128 k 上下文训练成本压缩 43 %。文中还公开了 2 048 卡集群 55 天预训练总耗 $5.6 M 的资源曲线,为大规模推理模型节能给出硬件参考。论文透露 DeepSeek-V3/R1 在推理阶段已内置动态混合专家路由,指向下一代「R2 多代理协同」的实验路线。[5]
6、Qwen 3 技术报告:思考模式与非思考模式合一
阿里 Qwen 团队 5 月 14 日深夜释出 Qwen 3 Technical Report。Qwen 3 覆盖 0.6B-235B 多尺度密集与 MoE 版本,首创“Thinking Mode / Non-Thinking Mode 动态切换”与 思考预算机制:模型可根据任务复杂度自适应调用专家数与计算步长,在保持延迟可控的同时提升多步推理准确率。团队声称,旗舰 235B-A22B MoE 模型在 MATH、CoderBench 与 Agent Arena 多项基准上全面领先同尺寸闭源模型,并扩充至 119 种语言方言。全部权重 Apache 2.0 开源。[6]
7、OpenAI 上线「Safety Evaluations Hub」集中公开模型安全指标
继 GPT-4.1 入驻 ChatGPT 之际,OpenAI 同步推出 Safety Evaluations Hub。该站点汇总 GPT-4o、o-series、GPT-4.1 以及未来版本的越权输出、拒答率、隐私泄漏等多维评测数据,并将随模型迭代定期更新。官方表示此举旨在让外界更直观追踪模型风险曲线、促进社区复现与外部红队反馈,从而加速内部安全对齐流程。业内人士认为,OpenAI 此番“类 Model Card 即时化”策略,或将成为高强度监管语境下的大模型新合规范式。[7]
参考资料
[1] ChatGPT — Release Notes,更新日期:2025-05-14,OpenAI Help Center.
[2] Direct PDF file input now supported in the API,2025-05-15,OpenAI Developer Forum Announcements.
[3] AlphaEvolve: A Gemini-Powered Coding Agent for Designing Advanced Algorithms,2025-05-14,Google DeepMind Blog.
[4] Improving Hugging Face Model Access for Kaggle Users,2025-05-14,Hugging Face Blog.
[5] Zhao C. et al., “Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures”,arXiv preprint arXiv:2505.09343,2025-05-14.
[6] Qwen Team, “Qwen 3 Technical Report”,arXiv preprint arXiv:2505.09388,2025-05-14.
[7] Safety Evaluations Hub,OpenAI 官方网站,访问时间:2025-05-15.
以上为今日重点 AI 新闻,欢迎关注后续更新。