阶跃星辰开源多模态模型 Step3‑VL‑10B,小模型实现大模型能力;华为或将发布首款 AI 眼镜,支持同传拍照 丨日报

news/2026/1/22 12:52:24/文章来源:https://www.cnblogs.com/rtedev/p/19516527

 

image

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@瓒an、@鲍勃

01有话题的技术

1、阶跃星辰开源 Step3‑VL‑10B:10B 模型对标 200B 能力

 

image

 

昨天,阶跃星辰宣布正式开源旗下 10B 参数量多模态模型 Step3‑VL‑10B。该模型在多项核心基准测试中达到同规模 SOTA 水平,部分能力甚至超越 10–20 倍体量的大模型。

 

Step3‑VL‑10B 主打「小模型实现大模型能力」,在视觉感知、逻辑推理、数学竞赛题、多模态对话等任务中表现突出。

 

阶跃星辰称,Step3‑VL‑10B 的性能已接近甚至超越部分百亿级开源模型(如 GLM‑4.6V 106B‑A12B、Qwen3‑VL‑Thinking 235B‑A22B),并在部分场景中达到顶级闭源旗舰模型(如 Gemini 2.5 Pro、Seed‑1.5‑VL)水平。

 

官方强调,该模型的关键突破来自三项核心设计:

 

  • 全参数端到端多模态联合预训练:在 1.2T 高质量多模态数据上训练,实现视觉与语言的深度对齐;

  • 大规模多模态强化学习:经历超过 1,400 次迭代,使模型在识别、推理与对话能力上持续提升;

  • 并行协调推理机制:通过并行探索与证据聚合提升复杂任务的准确度,尤其在数学推理、OCR、计数与空间拓扑任务中效果显著。

 

Step3‑VL‑10B 同时提供 SeRe(顺序推理)与 PaCoRe(并行推理)两种范式,覆盖 STEM 推理、OCR、GUI Grounding、空间理解与代码等多项能力维度。

 

当前,Step3‑VL‑10B 已开放 Base 与 Thinking 两个版本,社区可在 HuggingFace 与 ModelScope 获取模型并进行微调。

 

项目主页:https://stepfun-ai.github.io/Step3-VL-10B/

 

Hugging Face:https://huggingface.co/collections/stepfun-ai/step3-vl-10b

 

ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

 

论文链接:https://arxiv.org/pdf/2601.09668

 

(@阶跃星辰、@APPSO)

 

2、showlab 开源 whisperVideo:集成 SAM3 与 TalkNet 实现长视频「音视对齐」的说话人转录

 

showlab 近期开源了名为 whisperVideo 的项目,专门致力于解决长视频场景下「谁在说话」的身份归属难题。该工具打破了传统方案仅依赖音频的局限,通过融合视听双重特征,实现了语音内容与画面特定人脸的精准对齐。

 

为了突破纯音频方案在多人混响或近距离交谈时常见的识别漂移问题,whisperVideo 构建了一套紧密的多模态级联架构。它集成了 WhisperX 负责语音转录、Pyannote.audio 处理声纹分离,并引入 SAM3 进行人脸分割以及 TalkNet 判定主动说话人。这种组合拳方式,确保了机器能像人类一样同时「听」和「看」,从而做出更准确的判断。

 

针对小时级素材中常见的跨场景挑战,工具特别引入了「长时身份一致性」机制。利用视觉嵌入与轨迹聚类技术,系统能在漫长的视频时间轴上记住每一张脸,确保同一说话人的 ID 在不同场景切换中始终保持稳定。

 

在工作流设计上,whisperVideo 追求全自动化体验。内置的 SceneDetect 能够自动进行场景切割与分段处理,无需人工干预即可完成时间戳、文本与视觉 ID 的三方对齐。最终生成的成果不仅包括带说话人 ID 的字幕,还支持可视化的面板模式,并将底层数据以 。pckl 格式开放给开发者。

 

目前,项目已在 GitHub 开源,需使用 CUDA GPU 环境,依赖 HuggingFace Token 调用 Diarization 模型,支持 Python 命令行一键推理。

 

GitHub:https://github.com/showlab/whisperVideo

 

( @aigclink@X)

 

3、Bolna 获 630 万美元种子轮融资:自研 SLM 语音智能体,支持「印式英语」混说

 

总部位于班加罗尔的初创公司「Bolna」近日完成了由 General Catalyst 领投的 630 万美元种子轮融资。这家公司致力于通过自研的专用小模型(SLM)技术,打破多语言环境下的自动化通信瓶颈。

 

为了适应印度极其复杂的语言生态,Bolna 构建的语音智能体不仅将端到端响应延迟控制在 500 毫秒以内,更实现了深度的本地化适配。它能够流畅处理包括印地语、泰米尔语在内的 10 余种本土语言及 50 多种地区口音,甚至针对印度特有的语言混合现象,专门优化了对「印式英语(Hinglish)」的语义理解与生成能力。

 

在技术架构上,Bolna 摒弃了昂贵的通用大模型方案,转而采用针对事务性查询优化的 SLM 与智能路由架构。这种策略有效平衡了计算成本与响应速度,使其更适合大规模商业落地。配合其提供的无代码控制台,企业可自主设计并监控智能体。目前,该平台的日呼叫处理量已从 1,500 通激增至 20 万通以上,广泛应用于购物车挽回、货到付款确认及招聘筛选等场景。

 

平台现已正式上线,主要面向印度企业提供订阅制的自助服务。

 

( @AI Tech Suite)

02有亮点的产品

1、消息称华为首款 AI 眼镜将在上半年发布:搭载鸿蒙 OS,支持同传翻译与拍照

 

1 月 20 日多家媒体消息,华为的第一款「AI 眼镜」暂定在今年上半年推出,支持拍照和音频,鸿蒙系统 + 跨端无缝协同,同传翻译等功能。 AI 眼镜被誉为「下一代 AI 终端超级入口」,已然是大厂必争之地,百度、小米、阿里、理想等早已进场,并推出了 AI 拍照眼镜,字节也即将推出 AI 眼镜,作为国内消费类智能终端龙头的华为自然不会落后于人。

 

据 @数码闲聊站 爆料,华为 AI 眼镜将采用鸿蒙 OS 系统与轻量化设计,内置 3 块锂电池,支持跨端无缝协同,进一步拓展使用场景。并提供流光银、钛银灰、摩登黑三款配色,支持拍照、拍视频、音频播放以及同声传译等功能。

 

虽然目前具体细节尚未公布,但结合华为在 AI 技术领域的探索,预计将内置华为 AI 助手小艺,产品可能涉及 AI 识物、智能场景推荐等功能。

 

image

 

 

经查询发现,华为曾推出带有音频功能的智能眼镜,主打听音乐、打电话、健康播报等。如今随着 AI 的兴起,智能眼镜行业也纷纷上马 AI,以及自带摄像头、显示屏的 AI 眼镜也不断推新。

 

据 IDC 预测,智能眼镜产品成为 2025 年消费电子赛道的黑马,相应产品在中国市场出货量预计达到 290.7 万台,同比增长 121.1%。业内人士普遍认为,这缘于技术突破、市场需求释放以及产业链成熟等多重因素。

 

汇丰控股认为,智能眼镜市场仍处于加速扩张阶段。分析师预计,智能眼镜的用户规模将在未来十多年内迎来爆发式增长,到 2030 年代末将达到 2.89 亿人,较 2025 年的 1500 万用户增长超过 18 倍。

 

(@即智 Ultra、@IT 之家)

 

2、MiniMax 推出「Agent 实习生」,AI-native Workspace 全面升级

 

昨天,MiniMax 官宣,AI-native Workspace 迎来两项核心升级,进一步推动 AI 深度嵌入真实工作场景,并面向用户开放限时免费体验。

 

  • 桌面端应用正式上线: 用户可在本地环境中指定 Workspace 作为工作空间与上下文,使 AI 能够直接理解本地文档、代码仓库、邮件与日程,从而构建一个专属于个人的智能工作环境。

  • 推出「专家 Agents」能力: 用户可构建在特定领域达到「95 分甚至 100 分」水平的专业智能体。这类 Agent 能够在复杂任务链路中稳定执行、主动判断并长期协作。

 

公司内部数据显示,「Agent 实习生」在过去数周已被接近 100% 的员工使用,并在运维场景中承担了约 80% 的查 Bug 工作量。

 

MiniMax 表示,AI-native Workspace 标志着 Agent 从「被动执行指令」向「主动感知环境」的形态演进。

 

公司认为,未来的 Agent 将具备长期记忆、完整职业上下文与跨系统感知能力,成为用户的长期工作伙伴,而非一次性工具。

 

目前,MiniMax 已开启专家 Agents 的限时免费体验。用户可通过 Web 端直接试用,也可通过官方体验链接获取桌面端安装包。

 

体验地址:https://agent.minimaxi.com/

 

( @APPSO)

 

3、Crow 发布 AI 智能体框架:支持 OpenAPI 与 MCP 协议,实现「对话即 UI」交互

 

Crow 近期推出了一套专为 SaaS 产品打造的 AI 智能体基础设施,旨在通过「对话即 UI」的理念重构软件交互模式。该工具的核心逻辑在于将传统的点击操作转化为自然语言指令流,通过接入 OpenAPI 规范或 MCP 协议,使智能体不仅能回答问题,更能直接触发后端 API 调用及前端 UI 导航,从而实现对软件功能的深度控制。

 

为了解决生成式 AI 不可控的难题,Crow 引入了名为「Journeys」的结构化工作流。开发者可以针对取消订阅、创建报表等特定业务场景,定义确定性的引导路径,确保智能体在执行敏感操作时严格遵循预设的逻辑分支。配合支持文件与文档集成的 RAG 管道,智能体还能充分理解产品特定的业务逻辑与私有数据。

 

在开发与运维层面,Crow 提供了生产级的观测指标,能够详细追踪每一条指令对应的工具调用路径。其低代码部署方案仅需嵌入单行 Script 标签,官方宣称这能将传统长达半年以上的自研周期缩短至一周以内,并支持与 Claude Code 或 Cursor 等工具集成。目前该产品已正式上线,开发者项目可免费试用,同时针对中大型企业提供了定制化方案。

 

( @Y Combinator Launch)

 

4、Thread 发布 Voice AI:实现 MSP 电话自动化分拣与实时工单同步,单人效能提升 30%

 

Thread 宣布其专为托管服务提供商设计的 Voice AI 正式商用。该产品旨在终结传统 IVR(交互式语音应答)系统的僵化体验,通过语音智能体接管电话接入、分拣与派发的全流程,将高成本的电话渠道整合进结构化的自动化运维体系中。

 

AI Attendant 与 Overflow Agent 双引擎驱动:

 

  • AI Attendant:取代传统 IVR,能够即时接听电话并识别来电者身份。它不仅能进行自然的语音交互,还能在后台实时创建工单、匹配技术人员,并完成「热切换」,确保客户在转接给真人时无需重复复述问题。

  • Overflow Agent:专为下班后或线路繁忙场景设计。它能拦截进入语音信箱的电话,自动收集关键信息并进行分类;遇到 P1 级紧急事件时,可直接升级并呼叫待命团队,消除了「下班后盲区」。

 

Voice AI 的核心价值在于将非结构化的语音高效转化为结构化数据。系统不仅能根据通话内容自动填充工单的标题、类别、优先级和解决摘要,还引入了「自动时间条目」功能,可依据通话时长直接生成计费记录。据官方数据统计,这一特性为每张工单平均节省了 19 分钟的处理时间,从而推动单一技术人员的日均通话处理量从 8-12 通显著提升至 14-20 通。

 

在生态兼容性方面,该方案作为 Thread AI Service Desk 平台的重要组成部分,已与 ConnectWise、Autotask 和 HaloPSA 等主流 PSA 系统实现了原生集成。这意味着所有通话数据都会实时转化为结构化文档,并无缝同步至企业现有的工作流中,从而确保了整个服务链条的完整性与可追溯性。

 

据 Thread 统计,通过消除手动记录和人工轮班需求,该系统可使响应速度提升 5 倍,平均解决时间缩短 78%。目前该服务已正式上线。

 

相关链接:https://www.getthread.com/voice-ai

 

( @Mansfield News Journal)

03有态度的观点

1、谷歌前 CEO 施密特:欧洲要么投资开源 AI,要么依赖中国模型

 

image

 

 

1 月 20 日,据外媒报道,谷歌前 CEO、科技投资人埃里克 · 施密特 (Eric Schmidt) 周二表示,欧洲必须投资建设自己的开源 AI 实验室,并解决能源价格飙升的问题,否则很快就会发现自己对中国的模型产生依赖。 施密特周二在达沃斯世界经济论坛表示:「在美国,企业基本上正在转向闭源,这意味着这些技术将被购买、授权等等。而与此同时,中国在做法上基本是开放权重、开源的。除非欧洲愿意为欧洲自己的模型投入大量资金,否则欧洲最终将会使用中国的模型。」

 

目前,许多热门 AI 模型都是闭源的,比如谷歌的 Gemini 和 OpenAI 的 ChatGPT,这意味着这些公司不会向外界提供底层代码供下载或审查。虽然这种方式能为用户带来更顺畅、更统一的使用体验,但通常成本更高、灵活性也更低。中国在所谓「开放权重」模型的开发方面处于领先地位,这类模型具有更高的透明度。

 

为了在开发更强大 AI 模型和智能体的全球竞赛中具备竞争力,欧洲还需要解决高企的能源价格问题,并建设更多可用于训练这些技术的数据中心。施密特曾联合创办一家数据中心公司,致力于应对这类基础设施巨大的能源需求。他也对美国 AI 发展对电力供应的影响表示担忧。

 

(@IT 之家)

 

image

 

image

 

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

image

 

 

作者提示: 个人观点,仅供参考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1200085.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于三菱PLC机械手自动抓取(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

基于三菱PLC机械手自动抓取(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码 程序本自动搬运移动机械手的程序用的三菱fx3uPLC,程序都有注释,2元只有个plc程序,

说说东云助创专业不专业,看看在重庆、天津等地的服务靠谱吗

问题1:东云助创的基本信息是什么?核心业务覆盖哪些领域? 广州东云助创电子商务科技有限公司(简称东云助创)是一家聚焦电商微商生态全链条赋能的创新型企业,立足广州、辐射北京、天津、上海、重庆等全国核心城市,…

全开源在线点餐小程序源码系统,全栈开源,自主可控,支持私有化独立部署

温馨提示:文末有资源获取方式在数字化浪潮席卷餐饮行业的今天,一款功能强大、灵活自主的在线点餐系统已成为门店提升运营效率、优化顾客体验的核心工具。我们为您推荐一款专为餐饮行业深度定制的全能型在线点餐小程序源码系统,它能为各类餐饮…

plc大学生课程设计三层电梯(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

plc大学生课程设计三层电梯(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码 1三层电梯博途PLC与HMI仿真工程(博途V14及以 上或V18)一份; 2三层电梯配套有IO点表PLC接线图主电路图控制流程图(CAD源文件可编辑);

基于plc的T镗床控制系统设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

基于plc的T镗床控制系统设计(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

2026不错的新西兰移民品牌机构排名公布,杭州境易达在列

2026年全球移民市场持续升温,新西兰凭借低门槛技术移民、灵活投资路径及优质生活福利,成为浙江、杭州家庭规划海外身份的热门选择。然而,政策细节复杂的6分制、绿名单职业隐性门槛、机构服务断层等痛点,让多数申请…

基于plc的自动控制系统设计(s7-1200)(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

基于plc的自动控制系统设计(s7-1200)(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

基于PLC1200交通信号灯控制系统设计红绿灯(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

基于PLC1200交通信号灯控制系统设计红绿灯(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

全栈类型安全:tRPC + Next.js 实战,前后端共享 TypeScript 类型,告别 API 文档

摘要: 前端还在苦等后端的 Swagger 文档?后端改了一个字段类型,前端运行时才报错?RESTful API 的“猜谜游戏”该结束了。tRPC (TypeScript Remote Procedure Call) 结合 Next.js,为您提供“端到端”的类型安全体验。本文将带您实战…

好写作AI:导师总说“逻辑不通”?让AI当你的论文“首席结构官”!

各位写论文写到后面忘了前面、感觉段落像一群各自为政的散兵游勇、最终被导师一句“逻辑链条断裂”无情击穿的同学们,请举手!是不是经常觉得:每个字都认识,每句话都通顺,但拼在一起,连自己都说不清到底想论…

CTF Reverse 模块系列分享(一):零基础入门逆向工程,揭秘到底在玩啥

之前咱们完整梳理了Web模块和Pwn模块的核心知识点,现在开始第三个核心模块的学习——Reverse(逆向工程)。 提到Reverse,很多新手会觉得神秘又难学:要跟汇编打交道、要懂程序编译原理、还要会用复杂的反编译工具……但…

好写作AI:别只满足“通过”!用AI把你的论文从“还行”拔高到“惊艳”

各位在“及格万岁”和“我想拿优”之间反复横跳的学术潜力股们,有没有过这种体验:论文写完了,查重也过了,格式也没问题,导师看了点点头说“可以,没问题”。但你心里总觉得……少了点什么?仿佛一…

2026最新改色车衣品牌TOP5评测!技术创新+品质标杆,国内优质供应商权威榜单发布,引领汽车个性化防护新潮流.

随着汽车个性化消费需求的持续升级,改色车衣作为兼具颜值表达与漆面防护的核心产品,市场关注度与日俱增。本榜单基于产品技术实力、环境适配性、服务体系、市场口碑四大维度,结合行业权威数据与用户反馈,深度解析2…

好写作AI:和导师开会不再慌!用AI初稿开启高效沟通的“副本预演”

各位一收到导师“下午来讨论论文”的消息就心跳加速、手心冒汗的同学们,是不是经常这样:拿着自己都不太有底气的初稿,在会议室里被导师问得哑口无言,只能尴尬地说“我回去改”,然后陷入“被批-瞎改-再被批”的死亡循环…

2026年汽车租赁精选,解锁优质服务,评价好的汽车租赁公司技术领航者深度解析

随着国内出行需求多元化与消费升级趋势加速,汽车租赁行业正从传统单一服务向“场景化+定制化”转型。数据显示,2025年中国汽车租赁市场规模突破1200亿元,年复合增长率达15%,企业长租、新能源用车、跨境出行等细分赛…

好写作AI:你的学术指令总被AI“误解”?是你没说“黑话”!

各位和AI对话时,感觉自己在打哑谜、玩心跳的同学们,是不是经常这样:你满怀期待地输入“帮我写一段关于短视频影响的文献综述”,结果AI给你生成了一篇初中生作文水平的泛泛而谈,让你瞬间下头,觉得这AI怕不是…

中山源头工厂规划布局设计咨询服务商哪家好

2026年中国实体企业转型加速,工厂规划布局设计已成为企业提升生产效率、降本增效的核心环节。无论是新建工厂的全流程规划、现有厂区的流程优化,还是精益生产体系下的布局重构,优质咨询服务商的专业能力直接决定企业…

导师严选2026 TOP8 AI论文工具:MBA开题报告全测评

导师严选2026 TOP8 AI论文工具:MBA开题报告全测评 2026年MBA论文写作工具测评:为何需要一份权威榜单? 在当前AI技术快速发展的背景下,MBA学生在撰写开题报告和论文过程中,面临诸多挑战。从选题构思到文献综述&#x…

2026年装修公司服务推荐,红牛装饰环保材料与智能系统亮点多!

本榜单依托全维度市场调研与真实业主口碑,深度筛选出五家南京本地标杆装修企业,聚焦业主关心的施工透明、增项管控、环保达标、售后保障等核心痛点,为家庭装修提供客观依据,助力精准匹配适配的服务伙伴。 TOP1 推荐…

java_ssm108网上购书系统 图书销售系统_idea项目源码

目录 具体实现截图项目概述技术架构核心功能系统亮点适用场景 系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 具体实现截图 项目概述 Java_SSM108网上购书系统是一个基于SSM(SpringSpring MVCMy…