AI一周资讯 251108-251114

news/2025/11/14 16:53:54/文章来源:https://www.cnblogs.com/freedom-w/p/19222658

原文: https://mp.weixin.qq.com/s/4DjnCRMIOF_3dtoc_wVOtg

Grok家族一夜两大升级，性能飙升引关注

2025年11月9日消息，Grok家族迎来两大重要升级。Grok 4 Fast上下文窗口提升至2M（200万token），能处理相当于150万个英文单词或6000页文本量，是Gemini 2.5 Pro的2倍、GPT - 5的5倍，可处理整本书等内容，推理质量显著进步，推理和非推理模式完成率大幅提升。同时，x.ai在OpenRouter上API调用份额走高，达26.4%，远超谷歌和Anthropic。Grok Imagine在生成质量上升级，输出逼真，马斯克和网友积极在x上体验。

参考资料：
- https://x.com/BrianRoemmele/status/1987222897174380719?s=20
- https://x.com/cb_doge/status/1987088612115067291?s=20
- https://x.com/brianroemmele/status/1986949680278937736
- https://x.com/elonmusk
- https://x.com/tetsuoai/status/1987128602211864980
- https://x.com/BrianRoemmele/status/1987222897174380719?s=20

OpenAI三项重要更新：GPT-5-Codex-Mini发布与GPT-5.1系列待推出

2025年11月8日21:08，OpenAI Developers宣布三项重要更新。一是正式发布GPT - 5 - Codex - Mini，它是GPT - 5 - Codex的紧凑版，成本效益更高，使用量约为4倍，能力有轻微折衷但日常编程够用，已可在CLI和IDE扩展使用（需ChatGPT账号登录），API支持即将推出；ChatGPT Plus、Business和Edu用户速率限制提高50%，Pro和Enterprise用户获优先处理权，处理简单任务等情况可切换到Mini版本。二是据爆料，OpenAI准备11月24日推出GPT - 5.1系列，含三个新模型，其中一个已以Polaris Alpha在OpenRouter等平台测试，表现出色，非企业用户可能下周用上。此外，OpenAI制作图表有显著进步，作者用AI采集资讯后发至《AGI Hunt》实时AI快讯群欢迎交流。

谷歌二代Nano Banana（NB2）：性能大跃升，创意新巅峰

2025年11月9日，谷歌Nano Banana 2预览版现身第三方平台Media IO，爆料人预测本月中下旬将正式发布，初代曾引发创意热潮。NB2性能显著提升，图像生成可达原生2K、可选4K超分，速度快，文字渲染好；人物生成一致性高、更真实，二次元效果逼真；能解决数学问题、实现UI和OS一键生成。它还能呈现多种风格图像，新旧版本对比显示NB2远超上一代。目前Media IO平台上NB2入口已关闭，等待正式发布。

体验地址：https://www.media.io/ai/text-to-image
参考资料：https://x.com/AiTesty5/status/1987252970690331070?s=20；https://www.reddit.com/r/singularity/comments/1oryi1h/nanobanana_2_is_available_on_medioio/；https://www.tomsguide.com/ai/ai-image-video/next-gen-nano-banana-2-could-bring-4k-ai-image-generation-to-your-phone-heres-whats-coming

AI原生影视工作室Utopai与SFR合作，引领影视制作新变革

11月3日消息，AI原生影视工作室Utopai Studios与全球创新投资平台Stock Farm Road（SFR）成立资本规模达数十亿美元的合资公司Utopai East，加速韩国影视国际化进程。SFR背后有LG集团继承人与阿联酋主权基金推动者，Utopai Studios将成为SFR娱乐领域独家AI技术合作伙伴，依托350亿美元AI数据中心枢纽构建下一代影视制作基础设施。当前主流视频生成模型（如Diffusion）制作长片存在长程一致性崩塌等问题，Utopai通过构建分层协同架构，以自回归模型（AR）“规划”、扩散模型（Diffusion）“渲染”，并采用以3D物理规律替代2D像素统计的训练方法论来解决。其技术在一致性、剧本指令遵从度和制作效率上超越传统方案。此次合作以韩国为枢纽，整合AI技术、算力基建与内容生态，让AI成为影视创作伙伴，未来电影制作将更依赖想象力而非预算。

2025谷歌重磅升级Google Finance，成口袋里的AI金融研究助手！

2025年谷歌对Google Finance进行重磅升级，旨在成为用户口袋中的AI金融研究助手。亮点是在搜索框输入金融问题，内置Gemini多模态AI模型可启动“深度搜索”，几分钟生成综合性分析报告并展示预测市场平台数据。它具备AI深度搜索、预测市场数据、实时财报追踪三大核心功能。此次更新改变信息获取方式，推动金融信息民主化，降低投资研究门槛，让普通用户获近乎机构级研究体验。

体验地址：https://google.com/finance/beta

揭秘疑似 GPT 5.1 的「Polaris Alpha」：表现、挑战与 OpenAI 竞争处境

7 号深夜，OpenRouter 平台上线全新隐名模型，网友猜测是疑似 GPT 5.1 的「Polaris Alpha」，目前提供 API 调用，知识库截止到 2024 年 10 月，不支持推理模式，最大 context 容量 256K，单次最大输出 128K。试用表现上，案头工作处理基础任务表现良好，创意文案丰富，处理超长文本有自我纠正能力但受记忆限制；编程工作能生成小游戏代码和网页活动落地页，但竞争力待提升。该模型面临案头工作需平衡容量与输出稳定性、文风适应问题，以及推行 NSFW 模式的年龄验证等难题。年底 AI 市场竞争激烈，Gemini 3 等都是 OpenAI 对手，OpenAI 支出高盈利不明，GPT 5.1 网传 11 月中发布，表现备受期待。

体验地址：https://openrouter.ai/chat

纽约大学团队提出视频多模态模型「Cambrian - S」，探索多模态智能新路径

学术头条发布消息，纽约大学助理教授谢赛宁与李飞飞、Yann LeCun 合作提出视频多模态模型「Cambrian - S」。该研究在构建「Cambrian - 1」后展开，认为构建「超级智能」前需先构建「超感知」。多模态智能发展有仅语言理解、语义感知、流式事件认知、隐式 3D 空间认知、预测性世界建模等路径。「Cambrian - S」尝试预测感知，训练潜变量帧预测（LFP）头，推理时估计「惊讶度」，在空间认知任务上有提升，中小型模型在 VSI - Super 基准上超越 Gemini。研究还解构现有视频基准，提出 VSI - SUPER 基准，包括 VSR 和 VSC 测试，凸显当前 MLLM 范式局限性。此外，通过自监督的下一潜在帧预测方法构建预测性感知范式，在 VSI - SUPER 计数任务中，惊讶度驱动的事件分割方法使「Cambrian - S」性能更优。

Github：https://github.com/cambrian-mllm/cambrian-s
官网介绍：https://cambrian-mllm.github.io/
论文：https://arxiv.org/pdf/2511.04670

美团推出AI IDE编程工具Meituan CatPaw，揭秘其布局与迭代逻辑

本文介绍了美团推出的AI IDE编程工具Meituan CatPaw，及其在AI Coding方向的布局和模型迭代逻辑。CatPaw通过Agent驱动革新编程体验，现阶段免费，新用户注册有500次对话额度，支持macOS 10.15以上系统，Windows版预计本周五上线，兼容主流编程语言，获取需邀请码。其核心功能包括代码补全预测、快速问答生成、IDE内预览调试和项目维度分析。美团AI Coding布局中，CatPaw与NoCode由同一团队孵化，技术架构和Agent发展方向将协同，核心引擎是自研的LongCat大模型。美团模型迭代逻辑是从内到外，先在内部验证后推向外界；从专到全、速度优先，先保证速度，再专业深耕，最后进阶多模态。

全球首个项目级AI IDE Vinsoo Beta 3.0：超越流行产品，开启编程新体验

本文介绍了全球首个实现项目级开发的AI IDE——Vinsoo的Beta 3.0版本，它在AI编程领域取得新进展，超越众多流行AI编程产品。其仅用国产大模型（Qwen）就超越了搭载Claude的Cursor、Codex、Claude Code等产品。技术上有多项突破，如超长上下文工程算法、支持同步运行的multi - agent架构等。还带来云端AI Agent新体验，包括云端一键发布功能、移动端支持和团队协作功能。云端战略目标是实现安全可控的研发闭环等。背后的芸思智能去年年底获天使轮投资，研发团队由00后主导。Vinsoo Beta 3.0版本开放邀请码申请通道，近期发放。

官网介绍：www.aiyouthlab.com

全球首个开源LLM级音频编辑大模型Step - Audio - EditX发布！

2025年11月10日，阶跃星辰发布全球首个开源LLM级音频编辑大模型Step - Audio - EditX，采用统一LLM框架实现“文字驱动音频创作”。该模型开源协议为Apache 2.0，可用于研究与非商用。它具备零样本文本转语音等多种功能，核心设计含音频分词器、音频大语言模型和解码器三部分。其亮点有情感风格多维度控制、零样本TTS、大规模合成数据训练等。约3B参数，单卡32GB GPU可运行，支持多种部署方式。在多项性能表现上优于部分闭源模型。

Github：https://github.com/stepfun-ai/Step-Audio-EditX
官网介绍：https://www.modelscope.cn/models/stepfun-ai/Step-Audio-EditX
论文：https://www.modelscope.cn/papers/2511.03601
体验地址：stepaudiollm.github.io/step-audio-editx

百度小度AI眼镜Pro开售，AI眼镜赛道竞争再升级！

2025年11月10日，百度旗下小度AI眼镜Pro正式开售，叠加双十一优惠后售价2199元，京东次日即可收货，成为国内第二家开售AI眼镜的互联网大厂。与之对比，阿里巴巴夸克AI眼镜S1 12月发货，优惠后3329元；小米AI眼镜优惠后低至1691.11元。小度AI眼镜Pro外观有波士顿和猫眼两款，现发售波士顿款，支持自主换镜、自配度数；硬件上重39克，有1200万像素摄像头等配置；去年概念版续航佳，充电快；软件融合多模态AI大模型，功能丰富。当前AI眼镜产业价格跨度大，小度定价居中，赛道早期竞争激烈，能否成爆款待市场检验。

英特尔痛失AI大将，OpenAI算力布局再添猛将

2025年11月11日，英特尔CTO兼首席AI官Sachin Katti突然离职，加入OpenAI为其打造面向AGI的算力基础设施，英特尔华人CEO陈立武被迫接管AI部门。Sachin Katti履历亮眼，在英特尔主导AI芯片与软件战略。OpenAI外部与多方构建算力关系网，内部积极自建，投入约1.4万亿美元部署计算设施，还联手博通开发定制AI芯片，Katti加入意义重大。而英特尔今年已痛失两位顶级AI高管，晶圆代工业务难获大客户，CPU使用规模不及主流AI专用芯片，虽有新芯片预计年底出货但难抗衡对手，且代工业务规划不明。

参考资料1：https://x.com/sk7037/status/1987998832270127601?s=20
参考资料2：https://www.reuters.com/business/intel-ceo-oversee-companys-ai-efforts-after-departure-exec-openai-2025-11-10/
参考资料3：https://www.ft.com/content/9a1faf53-1bf0-48dd-8ac8-ff07b3ee57c5

Meta AI发布Omnilingual ASR：超1600种语言自动语音识别新突破

2025年11月11日，Meta AI FAIR团队发布自动语音识别（ASR）领域成果Omnilingual ASR，这是能为超1600种语言提供识别能力的模型套件，框架社区驱动，可少量样本扩展新语言。相关开源内容有含350种服务欠缺语言转录语音的数据集、70亿参数的多语言语音表征模型及语言探索Demo。它旨在打破语言障碍，让语音转文本技术惠及低资源语言社区。技术上引入架构变体，提升性能，还改变引入新语言范式。模型家族有不同版本和解码器变体，基于Apache 2.0许可发布。训练语料库整合多方数据，与当地组织合作。

Github：https://github.com/facebookresearch/omnilingual-asr
huggingface：https://huggingface.co/spaces/facebook/omniasr-transcriptions
论文：https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/
体验地址：https://aidemos.atmeta.com/omnilingualasr/language-globe

商汤开源SenseNova - SI空间智能大模型，性能领先GPT - 5等

昨晚商汤正式发布并开源SenseNova - SI系列空间智能大模型，含2B与8B两个版本。其中SenseNova - SI - 8B模型在多个空间智能基准测试平均成绩达60.99，大幅领先Qwen3 - VL - 8B、GPT - 5等模型。其性能跃升得益于系统性训练机制设计，构建“空间能力分类体系”、扩充数据规模并验证“尺度效应”，该方法还可支持基座模型迁移。在对比测试中，SenseNova - SI - 8B比GPT - 5展现出更稳定的空间理解能力。此模型是商汤空间智能战略一部分，将接入“悟能”平台，商汤还开源了空间智能测评平台EASI及其“英雄榜”。空间智能能力构建将为自动驾驶、机器人等应用提供基础。

Github：https://github.com/OpenSenseNova/SenseNova-SI
huggingface: https://huggingface.co/collections/sensenova/sensenova-si

火山引擎全新代码模型Doubao - Seed - Code：高性价比与强大性能的完美结合

本周AI资讯聚焦火山引擎新推出的面向Agentic编程任务深度优化的代码模型Doubao - Seed - Code。该模型优势显著，性能上与TRAE开发环境深度结合，登顶SWE - Bench Verified榜单；价格方面调用价格国内最低，双11有最低首月9.9元的Coding Plan，综合使用成本降低62.7%；迁移成本低，可在Claude Code环境零成本切换。实测在基础视觉、复杂交互、工程化问题解决、完整项目开发及看图写代码等任务中表现良好。其特点包括国内首个支持视觉理解、原生兼容Anthropic API、256K长上下文等。技术上构建了10万容器镜像训练库，采用端到端强化学习，且有算力和安全保障。

OpenAI发布GPT - 5.1：两大模型带来全新体验

2025年11月13日深夜，OpenAI发布GPT - 5.1，包含GPT - 5.1 Instant和GPT - 5.1 Thinking两个模型。GPT - 5.1 Instant更温暖智能、善循指令，能自适应推理，数学和编程评测提升显著；GPT - 5.1 Thinking是高级推理模型，可精准调整思考时间，响应清晰通俗，语气温暖有同理心。发布将逐步面向用户，先付费用户后免费和未登录用户，Enterprise和Edu订阅可提前七天早期访问。本周晚些时候两模型将在API可用。GPT - 5（Instant和Thinking）未来三个月向付费订阅用户提供。此次更新称GPT - 5.1属GPT - 5系列，未来迭代遵循相同命名模式。

官网介绍：https://openai.com/index/gpt-5-1/
系统卡附录地址：https://cdn.openai.com/pdf/4173ec8d-1229-47db-96de-06d87147e07e/5_1_system_card.pdf

李飞飞旗下 3D 世界生成模型 Marble：新功能、体验、定价与竞争全解析

李飞飞旗下 World Labs 公司推出的 3D 世界生成模型 Marble 正式向全体用户开放，新增多模态生成、AI 原生编辑、世界扩展与组合、Chisel 工具、全格式导出等功能。其生成能力强，编辑功能智能，Chisel 工具可分离结构与风格，还提供多种导出方案。采用分级订阅制，首月 1 美元吸引用户。市场反馈两极分化，有人认可其降低 3D 内容制作门槛，也有人质疑生成式 AI 带来的问题。李飞飞提出空间智能愿景，认为其应用分近期、中期、长期三个阶段。市场上虽有竞争对手，但 Marble 优势明显，能生成持久化完整 3D 世界，率先商业化落地且工具链完整。

体验地址：https://marble.worldlabs.ai/

Anthropic豪掷500亿美元建数据中心，AI竞赛白热化引泡沫担忧

2025年11月13日消息，AI公司Anthropic与英国新锐云服务商Fluidstack达成数据中心合作协议，将投入500亿美元在美国得克萨斯州和纽约州多地建设数据中心，2026年内陆续投入使用，以满足Claude系列模型不断增长的计算需求，这也是其首次大手笔建设定制化基础设施。虽支出庞大，但符合公司内部收入预测，Anthropic预计到2028年实现700亿美元收入和170亿美元正向现金流。不过与竞争对手相比，其投入规模较小，Meta、软银、OpenAI等均有更大规模的基础设施支出规划，巨额投入引发了对AI泡沫的担忧。此外，这对成立于2017年的Fluidstack而言是重大成功，该公司此前已有诸多重要合作，还是首批获得谷歌定制TPU的第三方供应商之一。

谷歌Gemini Live语音升级：开启AI对话“拟人化2.0”时代

摘要内容：2025年11月13日，谷歌上线Gemini Live语音功能全面升级版本，宣告AI对话进入“拟人化2.0”时代。该版本具有语速灵活变化、情绪感知适配、口音个性注入、无障碍体验升级、融入Google生态五大核心功能，基于Gemini2.5Flash模型的语音引擎深度优化。与ChatGPT相比，Gemini Live在动态调节、个性化体验和情感交互方面更具优势。不过，其也存在过度拟真语音诱发情感依赖、口音模拟有文化刻板印象风险、实时语音处理隐私保护要求高等潜在风险，谷歌采取语音数据默认不存储、用户可随时关闭个性化设置等应对之策。AI语音正从“工具属性”向“关系属性”转变，此次升级有望重新定义下一代智能交互标准。

体验地址：https://gemini.google.com/app

百度文心5.0发布：原生全模态大模型的差异化突破

2025年11月13日文心5.0正式发布，主打原生全模态，支持全模态输入与输出，在创意写作等方面能力更强。官方展示其能分析电影情节、判断音频使用等，文心5.0 Preview在LMArena文本排行榜并列全球第二、国内第一。目前Preview版已上线文心一言网页版等并提供API服务，支持全模态输入和多模态输出，满血版正优化体验。实测中其输入灵活，多模态理解推理精细，还有文图混合生成等更多用法。技术上采用原生统一路线、超大规模混合专家架构，由百度飞桨支撑。此外，今年百度大模型更新加快，文心5.0是又一次差异化突破。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/965530.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！