AI日报 · 2025年5月15日|GPT-4.1 登陆 ChatGPT

AI日报 · 2025年5月15日|GPT-4.1 登陆 ChatGPT在这里插入图片描述

1、OpenAI 在 ChatGPT 全面开放 GPT-4.1 与 GPT-4.1 mini

北京时间 5 月 14 日晚,OpenAI 在官方 Release Notes 中宣布:专为复杂代码与精细指令场景打造的 GPT-4.1 正式加入 ChatGPT,Plus/Pro/Team 付费用户即日起可在模型下拉菜单中直接调用;企业版与 Edu 版将于数周内接入。更新同 步推出 GPT-4.1 mini——在保持推理深度的同时大幅缩短响应延迟,取代原 GPT-4o mini 成为免费层超额 fallback 模型。
在这里插入图片描述

OpenAI 同时上线「Safety Evaluations Hub」,公开 GPT-4.1 系列最新安全基准数据,以期提升外部透明度。官方强调,两款模型沿用 GPT-4o 相同速率限制,且在编码、网页开发与工具调用链路上具备更高稳健度,预计将成为开发者与高级用户日常工作的“主力编译器”。[1]

2、API 直接吃 PDF:OpenAI 推出原生文件输入能力

5 月 15 日,OpenAI 在开发者社区公告板发布 「Direct PDF file input now supported in the API」,首次开放 PDF 作为 file_id 直传格式,无需预先转为文本或多页图片。新能力意味着开发者可在一次调用中上传、解析并让模型对复杂 PDF 结构(目录、表格、批注)进行语义检索、摘要或链式推理。官方示例还展示了结合 o4-mini-high 进行长链路推理的最佳实践。此举将进一步降低文档智能化门槛,为 RAG、合同审核、科研论文导航等场景提供即插即用的后端能力。[2]

3、Google DeepMind 发布 AlphaEvolve:Gemini 驱动的算法设计代理

DeepMind 于 5 月 14 日深夜(PDT)发布博客,推出 AlphaEvolve —— 基于 Gemini 2.5 系列的跨语言多模态编码代理。
在这里插入图片描述

官方称,AlphaEvolve 通过自监督进化搜索结合强化学习,可在数小时内自动生成高质量近似最优算法,并支持 Python/C++/Rust 等语言输出;内部基准显示在图着色、约束满足与半定规划等 12 个经典难题上平均超越人类专家基线 8.3 %。团队还开源了评测框架与部分搜索日志,邀请学术界共同验证可重复性。该项目被视作 AlphaGo 系列“搜索+RL”路线在通用算法设计上的首次产品化落地。[3]

4、Hugging Face × Kaggle:模型一键直连笔记本生态

开源社区旗舰 Hugging Face 5 月 14 日宣布与 Google Kaggle 达成深度集成:即日起,Hugging Face Hub 模型页新增 “Open in Kaggle” 按钮,用户可一键生成预填代码的 Kaggle Notebook;反向地,Kaggle 模型页也同步展示 Hub 元数据与 Spaces 示例。双方还自动为 Notebook 中引用且尚未托管的模型创建 Hub Entry,打通社区示例与数据血缘。官方博客指出,该集成后续将支持离线竞赛场景与私有模型令牌透传,目标是“让任何开发者在零配置下练手最前沿开源 LLM”。[4]

5、DeepSeek-V3 硬件共设论文披露 2 048 张 H800 GPU 训练细节

DeepSeek 团队于 5 月 14 日 20:39 (北京时间)在 arXiv 发布论文《Insights into DeepSeek-V3》。
在这里插入图片描述

“硬件–模型协同”成为核心主题:团队针对 H800 GPU 显存与带宽限制提出 Multi-head Latent Attention、FP8 混精度与多平面网络拓扑,将 128 k 上下文训练成本压缩 43 %。文中还公开了 2 048 卡集群 55 天预训练总耗 $5.6 M 的资源曲线,为大规模推理模型节能给出硬件参考。论文透露 DeepSeek-V3/R1 在推理阶段已内置动态混合专家路由,指向下一代「R2 多代理协同」的实验路线。[5]

6、Qwen 3 技术报告:思考模式与非思考模式合一

阿里 Qwen 团队 5 月 14 日深夜释出 Qwen 3 Technical Report。Qwen 3 覆盖 0.6B-235B 多尺度密集与 MoE 版本,首创“Thinking Mode / Non-Thinking Mode 动态切换”与 思考预算机制:模型可根据任务复杂度自适应调用专家数与计算步长,在保持延迟可控的同时提升多步推理准确率。团队声称,旗舰 235B-A22B MoE 模型在 MATH、CoderBench 与 Agent Arena 多项基准上全面领先同尺寸闭源模型,并扩充至 119 种语言方言。全部权重 Apache 2.0 开源。[6]

7、OpenAI 上线「Safety Evaluations Hub」集中公开模型安全指标

继 GPT-4.1 入驻 ChatGPT 之际,OpenAI 同步推出 Safety Evaluations Hub。该站点汇总 GPT-4o、o-series、GPT-4.1 以及未来版本的越权输出、拒答率、隐私泄漏等多维评测数据,并将随模型迭代定期更新。官方表示此举旨在让外界更直观追踪模型风险曲线、促进社区复现与外部红队反馈,从而加速内部安全对齐流程。业内人士认为,OpenAI 此番“类 Model Card 即时化”策略,或将成为高强度监管语境下的大模型新合规范式。[7]

参考资料

[1] ChatGPT — Release Notes,更新日期:2025-05-14,OpenAI Help Center.
[2] Direct PDF file input now supported in the API,2025-05-15,OpenAI Developer Forum Announcements.
[3] AlphaEvolve: A Gemini-Powered Coding Agent for Designing Advanced Algorithms,2025-05-14,Google DeepMind Blog.
[4] Improving Hugging Face Model Access for Kaggle Users,2025-05-14,Hugging Face Blog.
[5] Zhao C. et al., “Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures”,arXiv preprint arXiv:2505.09343,2025-05-14.
[6] Qwen Team, “Qwen 3 Technical Report”,arXiv preprint arXiv:2505.09388,2025-05-14.
[7] Safety Evaluations Hub,OpenAI 官方网站,访问时间:2025-05-15.

以上为今日重点 AI 新闻,欢迎关注后续更新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/79952.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

π0: A Vision-Language-Action Flow Model for General Robot Control

TL;DR 2024 年 Physical Intelligence 发布的 VLA 模型 π0,基于 transformer 流匹配(flow matching)架构,当前开源领域最强的 VLA 模型之一。 Paper name π0: A Vision-Language-Action Flow Model for General Robot Contr…

Java详解LeetCode 热题 100(17):LeetCode 41. 缺失的第一个正数(First Missing Positive)详解

文章目录 1. 题目描述2. 理解题目3. 解法一:排序法(不满足题目要求)3.1 思路3.2 Java代码实现3.3 代码详解3.4 复杂度分析3.5 不足之处 4. 解法二:哈希表法4.1 思路4.2 Java代码实现4.3 代码详解4.4 复杂度分析4.5 不足之处 5. 解…

第九讲 | 模板进阶

模板进阶 一、非类型模板参数1、模板参数的分类2、应用场景3、array4、注意 二、模板的特化1、概念2、函数模板特化3、类模板特化(1)、全特化:全部模板参数都特化成具体的类型(2)、偏/半特化:部分模板参数特…

机器学习——朴素贝叶斯练习题

一、 使用鸢尾花数据训练多项式朴素贝叶斯模型,并评估模型 代码展示: from sklearn.datasets import load_iris from sklearn.metrics import accuracy_score from sklearn.model_selection import train_test_split from sklearn.naive_bayes impor…

气胸复查重点提问清单 ,怎样平衡检查必要性和辐射影响?

气胸复查重点提问清单(打印版) 以下是带孩子复查气胸时建议与医生沟通的重点问题,分为不同方面,可打印后随身携带,逐项确认。 术后康复情况相关 1. 肺目前复张情况如何?胸片显示肺是否已经完全展开&…

Linux相关概念和易错知识点(40)(HTML资源交互、网页管理、搜索引擎)

目录 1.HTML资源交互 (1)媒体加载 (2)静态页面跳转 (3)动态页面 (4)GET和POST传参的区别 2.网页管理 (1)网页的权限管理 (2)临…

使用 QGIS 插件 OpenTopography DEM Downloader 下载高程数据(申请key教程)

使用 QGIS 插件 OpenTopography DEM Downloader 下载高程数据 目录 使用 QGIS 插件 OpenTopography DEM Downloader 下载高程数据📌 简介🛠 插件安装方法🌍 下载 DEM 数据步骤🔑 注册 OpenTopography 账号(如使用 Cope…

【通知】2025元宇宙数字人设计大赛启动,大赛线上报名阶段开启!

元宇宙数字人设计大赛火热报名中!欢迎大家踊跃报名参与! 元宇宙数字人设计大赛报名活动正在如火如荼进行中,欢迎各位对元宇宙数字人感兴趣的同学与老师踊跃参与报名! 元宇宙数字人设计大赛承接原大中华区VR盟主选拔赛&#xff0c…

Kaamel隐私合规洞察:Temu在韩被罚事件分析

Kaamel隐私合规与数据安全团队分析报告 韩国个人信息保护委员会(PIPC)对中国电子商务巨头Temu处以巨额罚款,原因是其严重违反了用户数据保护法律 。核心违规行为包括未经适当披露或用户同意非法跨境传输数据、未能指定当地代表、账户注销流程…

查询公网IP地址的方法:查看自己是不是公网ip,附内网穿透外网域名访问方案

本地搭建服务并提供互联网连接时,较为传统的方法是使用公网IP地址。因此,如何查询本地自己是不是公网IP,是必须要掌握的一种技巧。当面对确实无公网IP时,则可以通过内网穿透方案,如nat123网络映射工具,将本…

Redis特性与应用

1、分布式缓存与redis 2、redis数据结构和客户端集成 3、缓存读写模式与数据一致性 本地缓存:Hash Map、Ehcache、Caffeine、Google Guava 分布式缓存:Memcached、redis、Hazelcast、Apache ignite redis:基于键值对内存数据库,支…

Top-p采样:解锁语言模型的创意之门

Top - p采样 是什么:核采样:排序,累计到0.7,随机选择 在自然语言生成和大规模语言模型推理中,Top - p采样(又叫核采样,Nucleus Sampling)是一种基于累积概率的采样策略。 Top - p介…

Gitee DevSecOps:军工软件研发的智能化变革引擎

在数字化战争时代背景下,军工软件的研发效率与质量直接关乎国防建设进程。传统军工软件开发面临依赖管理混乱、版本变更失控、团队协作低效等系统性难题,严重制约着"软件工厂"理念的落地。Gitee DevSecOps平台以智能版本管理为突破口&#xff…

芋道项目,商城模块数据表结构

一、需求 最近公司有新的业务需求,调研了一下,决定使用芋道(yudao-cloud)框架,于是从github(https://github.com/YunaiV/yudao-cloud)上克隆项目,选用的是jdk17版本的。根据项目启动手册&#…

ES常识9:如何实现同义词映射(搜索)

在 Elasticsearch(ES)中实现同义词映射(如“美丽”和“漂亮”),核心是通过 同义词过滤器(Synonym Token Filter) 在分词阶段将同义词扩展或替换为统一词项,从而让搜索时输入任意一个…

Web安全渗透测试基础知识之SQL注入篇

一、SQL注入基础理论 1.1 什么是SQL注入 SQL注入是一种常见的Web安全问题,攻击者通过在Web应用程序的输入字段中插入恶意的SQL语句,改变原本SQL查询的逻辑,实现非法获取数据、篡改数据、执行系统命令等操作。这种情况产生的根本原因在于应…

JVM方法区核心技术解析:从方法区到执行引擎

方法区 方法区的内部结构 在经典方法区设计中,主要存储以下核心数据内容: 一、类型信息 方法区维护的类型信息包含以下要素: 类全称标识 类名称(含完整包路径)直接父类的完全限定名(包含完整包路径&am…

【MyBatis插件】PageHelper 分页

前言 在开发 Web 应用时,我们经常需要处理海量数据的展示问题。例如,在一个电商平台上,商品列表可能有成千上万条数据。如果我们一次性将所有数据返回给前端,不仅会导致页面加载缓慢,还会对数据库造成巨大压力。为了解…

springboot+vue实现在线书店(图书商城)系统

今天教大家如何设计一个图书商城 , 基于目前主流的技术:前端vue,后端springboot。 同时还带来的项目的部署教程。 视频演示 在线书城 图片演示 一. 系统概述 商城是一款比较庞大的系统,需要有商品中心,库存中心,订单…

OPC UA + ABP vNext 企业级实战:高可用数据采集框架指南

🚀📊 OPC UA ABP vNext 企业级实战:高可用数据采集框架指南 🚀 📑 目录 🚀📊 OPC UA ABP vNext 企业级实战:高可用数据采集框架指南 🚀一、前言 🎯二、系统…