
开发者朋友们大家好:
这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01 有话题的技术
1、ModelScope 开发者开源「AI 眼镜」:搭载 Qwen Omni,赋能视障人士「听」见世界
在 ModelScope 的「AI 向善」竞赛中,开发者帆哥设计了一款轻便的眼镜,让用户能够实时「听」到世界。它们可以报交通信号灯、识别产品,并提供引导。
眼镜通过复杂的软硬件、云边架构运行。
✅ Qwen Omni 构成了基础,确保<1s 对话响应性通过超低延迟推理。
✅ 这结合了专门用于识别障碍物、路径和交通信号的自定义 YOLO 图像模型。
✅ 通过将光流算法与自定义导航策略相结合,该系统以每秒 20 帧的速度提供近乎实时的路径规划反馈。
关键的是,开发过程由实际反馈驱动。开发者帆哥亲自佩戴眼镜,体验了一天的视障人士街道生活,并邀请了上海杨浦区盲人协会主席参与测试。这种亲身实践的真实用户反馈促成了多次关键迭代和优化,进展仍在继续。
该项目所有代码、硬件清单、3D 外壳模型以及 AI 眼镜的部署教程现已在 ModelScope 上开源。
(🔗 :https://modelscope.cn/models/archifancy/AIGlasses_for_navigation)
(@ModelScope)
2、Vogent 发布 VoTurn-80M 模型,用 80M 参数解决语音智能体「何时回应」难题
Vogent 发布了 VoTurn-80M,一款专为语音智能体设计的开源「轮次检测」模型。该模型创新地结合了音频和文本两种模态,以解决传统方案中「何时回应」的难题,在实现 94.1% 准确率的同时,将延迟控制在 7ms,旨在让 AI 对话体验更自然流畅。
-
多模态融合架构: VoTurn-80M 的核心突破在于其多模态设计。它不仅通过 Whisper 编码器分析音频信号中的语调、停顿和节奏,还结合对话上下文的文本信息进行综合判断。这使得模型能区分「思考时的停顿」和「真正结束的回答」,大幅提升了交互的智能性。
-
高效的轻量化模型: 该模型基于 SmolLM2-135M,并通过模型烧蚀(ablation)技术精简至仅 ~80M 参数。这一优化在不牺牲准确率的前提下,显著降低了计算需求,使其能够在消费级硬件上实现实时推理,非常适合实际应用部署。
-
实时性能与高准确率: 在 NVIDIA T4 GPU 上, VoTurn-80M 的单次推理延迟仅为~7ms,远低于人类感知的阈值,确保了对话的即时响应。同时,其准确率达到了 94.1%,在精度和速度之间取得了出色的平衡。
-
精心构建的训练数据集: 为应对真实对话的复杂性,Vogent 结合了真人录制的自然对话数据和系统性生成的合成数据。合成数据特别关注了易导致误判的边缘场景,如包含「嗯……啊……」的犹豫、多子句的回答、列表式列举等,增强了模型的鲁棒性。
GitHub 仓库:
https://github.com/vogent/vogent-turn
(@Vogent Blog)
02有亮点的产品
1、OpenAI 收购 Mac 端 AI 界面 Sky,巨头布局消费级 AI 再落一子
今天,OpenAI 宣布收购了一家名为** Software Applications 的初创公司,这家公司由多位苹果资深员工创办**,致力于打造一款面向 Mac 的 AI 驱动用户界面。彭博社分析道,这笔收购是 OpenAI 在让 AI「更好地在电脑上完成任务」方面迈出的重要一步。
作为此次收购的一部分,OpenAI 将把 Software Applications 打造的 AI 助手 Sky 整合进 ChatGPT,包括这款产品在 macOS 上的集成能力与其产品设计理念。同时,Software Applications 的整个团队将加入 OpenAI。交易的具体财务条款尚未披露。
Software Applications 此前曾于 2023 年 1 月获得** 650 万美元的种子轮融资,投资方包括 OpenAI 首席执行官 Sam Altman 与 Figma CEO Dylan Field **等知名人士。OpenAI 特别强调,此次收购 Software Applications 由公司两位其他高管主导,并经独立交易与审计委员会批准。
今年早些时候,Software Applications 发布了名为「Sky」的 AI 助手,能够帮助用户在 Mac 上执行任务或回答问题,如写作、规划、编程等。该功能采用悬浮式界面设计,可理解用户屏幕上的内容,并直接使用应用程序来执行任务。目前 Sky 尚未面向公众开放。
值得注意的是,Software Applications 的创始人团队此前已经有过一次引人注目的成功套现。
Software Applications 的联合创始人兼 CEO 为 Ari Weinstein,联合创始人兼 CTO 为 Conrad Kramer。二人在 2013 年左右共同创立了自动化应用 Workflow,并在 2017 年将其出售给苹果。
这款应用后来演变成如今 iPhone 和 Mac 上广受欢迎的 「快捷指令」(Shortcuts)技术 。在被苹果收购后,他们都在苹果工作了一段时间,随后于 2023 年 8 月离职创办了 Software Applications。
OpenAI 近期正积极通过并购扩展版图。今年早些时候,公司在一轮二级市场股份交易中估值已达到 5000 亿美元。此后,OpenAI 以 11 亿美元收购了产品测试公司 Statsig,并完成了约 65 亿美元收购由前苹果设计总监 Jony Ive 共同创办的 AI 硬件初创公司——这两笔交易均为全股票交易。此外,OpenAI 还进行了多项较小规模的收购。
通过吸纳 Software Applications 团队的产品能力与 macOS 的深度集成经验,OpenAI 或许希望进一步推动 ChatGPT 从对话式 AI 进化为真正能理解上下文、操作系统和用户意图的个人助手。
(@智东西)
2、微软推出 Copilot 语音模式的新虚拟角色 Mico,AI 版大眼夹助手首次亮相
彩蛋:如果您多次点击 Mico,它就会改变形状并最终变成 Clippy。
距离微软经典的 Office 大眼夹助手 **Clippy **首次亮相已近 30 年,尽管 Clippy 在 2001 年 Office XP 时代被「退休」,之后微软曾尝试以 Windows Phone 平台上的 Cortana 延续智能助手理念,但当时的技术尚未成熟。如今,微软再次尝试,通过 Copilot 语音模式引入新的虚拟角色——Mico。

微软 AI 部门产品与增长副总裁 Jacob Andreou 谈到:「大眼夹的出现是为了让我们迈步向前。」据介绍,微软已测试 Mico 数月。这一角色能在语音交互时实时呈现表情,默认启用,用户也可选择关闭这只「弹跳小球」。
Mico 会根据用户说话内容实时变化表情。例如,当用户谈论悲伤话题时,Mico 的表情也会立即表现出相应情绪。「所有技术都退居幕后,你只需与这个可爱的球体对话,逐渐建立情感联系。」Andreou 说。
首批上线地区包括美国、英国和加拿大。Mico 依托 Copilot 新记忆功能,可调用与用户相关的事实和工作内容。

微软还在 Mico 中加入了「Learn Live」模式,能将 Mico 变身为苏格拉底式导师,鼓励引导式学习,而非直接给出答案。该模式利用互动白板和视觉提示,特别面向备战考试的学生或练习新语言的用户。
微软 AI 首席执行官 Mustafa Suleyman 曾表示,Copilot 未来将拥有固定形象、独立空间与「成长」过程。Mico 正是微软赋予 Copilot 身份感的重要一步。
此外,微软近期开展了「让人们与电脑对话」的新计划,在电视广告中力推 Windows 11 电脑为「可对话的电脑」。此前微软在 Windows 10 尝试推广 Cortana,也最终在 Windows 11 被关闭。
相比大眼夹和 Cortana,Mico 拥有更强能力。但微软仍面临劝服用户接受与电脑、手机对话为自然而非尴尬的新挑战。和前作一样,Mico 也藏有彩蛋,比如快速点击 Mico 会激发特殊效果——Andreou 笑言:「在某种意义上,我们都生活在大眼夹的阴影下。」
(@cnBeta、@testingcatalog@X)
03有态度的观点
1、A16Z:AI 视频模型不会一家独大,产品层才是最大机会

风险投资机构 A16Z 近日发表文章指出,AI 视频生成领域不会出现「一家通吃」的「神级模型」,而是逐渐走向专业化与产品化阶段。
A16Z 合伙人 Justine Moore 在文章中表示,早期行业竞争主要集中在 benchmark 指标,如生成时长、物理效果和逼真度,但如今不同模型已开始分工明确。
例如,Veo 3 更擅长「物理仿真与音视频同步」,适合专业创作场景;而 Sora 2 则突出「叙事与多镜头生成」,更适合娱乐和梗图创作。
除了这两款代表性产品,市场上还出现了 Grok(动漫生成)、Hedra(长视频人物)、Seedance Pro(多镜头场景)以及 Wan(开源模型)等差异化方案。
Moore 将这一趋势比作 17、18 世纪绘画从「逼真」转向「风格化」,认为视频模型正进入一个「多样化与专业化」的艺术时代。
文章强调,当前最大机会在于「产品层」。尽管模型能力不断提升,但普通用户仍需依赖复杂流程才能完成创作,例如结合 Ideogram、nano-banana、Veo 3、Hedra 与剪辑工具。
Moore 指出,这些环节完全可以被整合为一站式产品,从而降低门槛,释放更大市场潜力。她还提到,近期中国 AI 创企 LiblibAI 完成 1.3 亿美元 B 轮融资,成为迄今国内 AI 应用领域最大规模融资案例。
这一趋势显示,行业正从「卷模型性能」转向「卷产品体验」,对创业公司而言正是最佳时机。
(@APPSO)


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻