轮次检测模型 VoTurn-80M 开源，多模态融合架构；OpenAI 收购桌面助手 Sky：实时识别屏幕自然语言交互丨日报

news/2025/10/24 20:43:36/文章来源:https://www.cnblogs.com/Agora/p/19164191

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01 有话题的技术

1、ModelScope 开发者开源「AI 眼镜」：搭载 Qwen Omni，赋能视障人士「听」见世界

在 ModelScope 的「AI 向善」竞赛中，开发者帆哥设计了一款轻便的眼镜，让用户能够实时「听」到世界。它们可以报交通信号灯、识别产品，并提供引导。

眼镜通过复杂的软硬件、云边架构运行。

✅ Qwen Omni 构成了基础，确保<1s 对话响应性通过超低延迟推理。

✅ 这结合了专门用于识别障碍物、路径和交通信号的自定义 YOLO 图像模型。

✅ 通过将光流算法与自定义导航策略相结合，该系统以每秒 20 帧的速度提供近乎实时的路径规划反馈。

关键的是，开发过程由实际反馈驱动。开发者帆哥亲自佩戴眼镜，体验了一天的视障人士街道生活，并邀请了上海杨浦区盲人协会主席参与测试。这种亲身实践的真实用户反馈促成了多次关键迭代和优化，进展仍在继续。

该项目所有代码、硬件清单、3D 外壳模型以及 AI 眼镜的部署教程现已在 ModelScope 上开源。

（🔗 :https://modelscope.cn/models/archifancy/AIGlasses_for_navigation）

(@ModelScope)

2、Vogent 发布 VoTurn-80M 模型，用 80M 参数解决语音智能体「何时回应」难题

Vogent 发布了 VoTurn-80M，一款专为语音智能体设计的开源「轮次检测」模型。该模型创新地结合了音频和文本两种模态，以解决传统方案中「何时回应」的难题，在实现 94.1% 准确率的同时，将延迟控制在 7ms，旨在让 AI 对话体验更自然流畅。

多模态融合架构： VoTurn-80M 的核心突破在于其多模态设计。它不仅通过 Whisper 编码器分析音频信号中的语调、停顿和节奏，还结合对话上下文的文本信息进行综合判断。这使得模型能区分「思考时的停顿」和「真正结束的回答」，大幅提升了交互的智能性。
高效的轻量化模型：该模型基于 SmolLM2-135M，并通过模型烧蚀（ablation）技术精简至仅 ～80M 参数。这一优化在不牺牲准确率的前提下，显著降低了计算需求，使其能够在消费级硬件上实现实时推理，非常适合实际应用部署。
实时性能与高准确率：在 NVIDIA T4 GPU 上， VoTurn-80M 的单次推理延迟仅为～7ms，远低于人类感知的阈值，确保了对话的即时响应。同时，其准确率达到了 94.1%，在精度和速度之间取得了出色的平衡。
精心构建的训练数据集：为应对真实对话的复杂性，Vogent 结合了真人录制的自然对话数据和系统性生成的合成数据。合成数据特别关注了易导致误判的边缘场景，如包含「嗯……啊……」的犹豫、多子句的回答、列表式列举等，增强了模型的鲁棒性。

GitHub 仓库：

https://github.com/vogent/vogent-turn

(@Vogent Blog)

02有亮点的产品

1、OpenAI 收购 Mac 端 AI 界面 Sky，巨头布局消费级 AI 再落一子

今天，OpenAI 宣布收购了一家名为** Software Applications 的初创公司，这家公司由多位苹果资深员工创办**，致力于打造一款面向 Mac 的 AI 驱动用户界面。彭博社分析道，这笔收购是 OpenAI 在让 AI「更好地在电脑上完成任务」方面迈出的重要一步。

作为此次收购的一部分，OpenAI 将把 Software Applications 打造的 AI 助手 Sky 整合进 ChatGPT，包括这款产品在 macOS 上的集成能力与其产品设计理念。同时，Software Applications 的整个团队将加入 OpenAI。交易的具体财务条款尚未披露。

Software Applications 此前曾于 2023 年 1 月获得** 650 万美元的种子轮融资，投资方包括 OpenAI 首席执行官 Sam Altman 与 Figma CEO Dylan Field **等知名人士。OpenAI 特别强调，此次收购 Software Applications 由公司两位其他高管主导，并经独立交易与审计委员会批准。

今年早些时候，Software Applications 发布了名为「Sky」的 AI 助手，能够帮助用户在 Mac 上执行任务或回答问题，如写作、规划、编程等。该功能采用悬浮式界面设计，可理解用户屏幕上的内容，并直接使用应用程序来执行任务。目前 Sky 尚未面向公众开放。

值得注意的是，Software Applications 的创始人团队此前已经有过一次引人注目的成功套现。

Software Applications 的联合创始人兼 CEO 为 Ari Weinstein，联合创始人兼 CTO 为 Conrad Kramer。二人在 2013 年左右共同创立了自动化应用 Workflow，并在 2017 年将其出售给苹果。

这款应用后来演变成如今 iPhone 和 Mac 上广受欢迎的 「快捷指令」（Shortcuts）技术 。在被苹果收购后，他们都在苹果工作了一段时间，随后于 2023 年 8 月离职创办了 Software Applications。

OpenAI 近期正积极通过并购扩展版图。今年早些时候，公司在一轮二级市场股份交易中估值已达到 5000 亿美元。此后，OpenAI 以 11 亿美元收购了产品测试公司 Statsig，并完成了约 65 亿美元收购由前苹果设计总监 Jony Ive 共同创办的 AI 硬件初创公司——这两笔交易均为全股票交易。此外，OpenAI 还进行了多项较小规模的收购。

通过吸纳 Software Applications 团队的产品能力与 macOS 的深度集成经验，OpenAI 或许希望进一步推动 ChatGPT 从对话式 AI 进化为真正能理解上下文、操作系统和用户意图的个人助手。

（@智东西）

2、微软推出 Copilot 语音模式的新虚拟角色 Mico，AI 版大眼夹助手首次亮相

彩蛋：如果您多次点击 Mico，它就会改变形状并最终变成 Clippy。

距离微软经典的 Office 大眼夹助手 **Clippy **首次亮相已近 30 年，尽管 Clippy 在 2001 年 Office XP 时代被「退休」，之后微软曾尝试以 Windows Phone 平台上的 Cortana 延续智能助手理念，但当时的技术尚未成熟。如今，微软再次尝试，通过 Copilot 语音模式引入新的虚拟角色——Mico。

微软 AI 部门产品与增长副总裁 Jacob Andreou 谈到：「大眼夹的出现是为了让我们迈步向前。」据介绍，微软已测试 Mico 数月。这一角色能在语音交互时实时呈现表情，默认启用，用户也可选择关闭这只「弹跳小球」。

Mico 会根据用户说话内容实时变化表情。例如，当用户谈论悲伤话题时，Mico 的表情也会立即表现出相应情绪。「所有技术都退居幕后，你只需与这个可爱的球体对话，逐渐建立情感联系。」Andreou 说。

首批上线地区包括美国、英国和加拿大。Mico 依托 Copilot 新记忆功能，可调用与用户相关的事实和工作内容。

微软还在 Mico 中加入了「Learn Live」模式，能将 Mico 变身为苏格拉底式导师，鼓励引导式学习，而非直接给出答案。该模式利用互动白板和视觉提示，特别面向备战考试的学生或练习新语言的用户。

微软 AI 首席执行官 Mustafa Suleyman 曾表示，Copilot 未来将拥有固定形象、独立空间与「成长」过程。Mico 正是微软赋予 Copilot 身份感的重要一步。

此外，微软近期开展了「让人们与电脑对话」的新计划，在电视广告中力推 Windows 11 电脑为「可对话的电脑」。此前微软在 Windows 10 尝试推广 Cortana，也最终在 Windows 11 被关闭。

相比大眼夹和 Cortana，Mico 拥有更强能力。但微软仍面临劝服用户接受与电脑、手机对话为自然而非尴尬的新挑战。和前作一样，Mico 也藏有彩蛋，比如快速点击 Mico 会激发特殊效果——Andreou 笑言：「在某种意义上，我们都生活在大眼夹的阴影下。」

（@cnBeta、@testingcatalog@X）

03有态度的观点

1、A16Z：AI 视频模型不会一家独大，产品层才是最大机会

风险投资机构 A16Z 近日发表文章指出，AI 视频生成领域不会出现「一家通吃」的「神级模型」，而是逐渐走向专业化与产品化阶段。

A16Z 合伙人 Justine Moore 在文章中表示，早期行业竞争主要集中在 benchmark 指标，如生成时长、物理效果和逼真度，但如今不同模型已开始分工明确。

例如，Veo 3 更擅长「物理仿真与音视频同步」，适合专业创作场景；而 Sora 2 则突出「叙事与多镜头生成」，更适合娱乐和梗图创作。

除了这两款代表性产品，市场上还出现了 Grok（动漫生成）、Hedra（长视频人物）、Seedance Pro（多镜头场景）以及 Wan（开源模型）等差异化方案。

Moore 将这一趋势比作 17、18 世纪绘画从「逼真」转向「风格化」，认为视频模型正进入一个「多样化与专业化」的艺术时代。

文章强调，当前最大机会在于「产品层」。尽管模型能力不断提升，但普通用户仍需依赖复杂流程才能完成创作，例如结合 Ideogram、nano-banana、Veo 3、Hedra 与剪辑工具。

Moore 指出，这些环节完全可以被整合为一站式产品，从而降低门槛，释放更大市场潜力。她还提到，近期中国 AI 创企 LiblibAI 完成 1.3 亿美元 B 轮融资，成为迄今国内 AI 应用领域最大规模融资案例。

这一趋势显示，行业正从「卷模型性能」转向「卷产品体验」，对创业公司而言正是最佳时机。

(@APPSO)

阅读更多 Voice Agent 学习笔记：了解最懂 AI 语音的头脑都在思考什么

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/945647.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

轮次检测模型 VoTurn-80M 开源，多模态融合架构；OpenAI 收购桌面助手 Sky：实时识别屏幕自然语言交互丨日报

01 有话题的技术

02有亮点的产品

03有态度的观点

相关文章

ABP - 依赖注入和属性注入

ABP vNext 框架功能模块 - 依赖注入和属性注入

SAP维护汇率的关键Tcode

幂函数

ABP vNext 框架功能模块 - 动态API（Dynamic API）[RemoteServiceAttribute | DynamicApiControllerBuilder]

第4天(中等题滑动窗口、哈希表)

ABP vNext 框架功能模块 - 动态API（Dynamic API）

ABP vNext 框架功能模块 - 模块化（Modularity）

ABP vNext 框架功能模块

题解：P14299 [JOI2023 预选赛 R2] 填充 / Painting

Devolutions Server权限提升漏洞分析与修复指南

AI股票预测分析报告 - 2025年10月24日 - 20:08:50

在 Astro 博客中优雅使用 51.la 统计数据

2025.10.24博客

申威服务器安装Java11（swjdk-11u-9.ky10.sw_64.rpm）详细操作步骤（附安装包）

str.endswith（）类似的方法

深度剖析OpenHarmony AI Engine：开发板端侧大模型推理插件机制全链路拆解 - 实践

Linux下的拼音输入法 (3)

P2606 [ZJOI2010] 排列计数分析

实用指南：MacOS - Clang使用bits/stdc++.h - 非官方(竞赛用) - 通用方法