轮次检测模型 VoTurn-80M 开源,多模态融合架构;OpenAI 收购桌面助手 Sky:实时识别屏幕自然语言交互丨日报

news/2025/10/24 20:43:36/文章来源:https://www.cnblogs.com/Agora/p/19164191

 

image

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01 有话题的技术

1、ModelScope 开发者开源「AI 眼镜」:搭载 Qwen Omni,赋能视障人士「听」见世界

 

在 ModelScope 的「AI 向善」竞赛中,开发者帆哥设计了一款轻便的眼镜,让用户能够实时「听」到世界。它们可以报交通信号灯、识别产品,并提供引导。

 

眼镜通过复杂的软硬件、云边架构运行。

 

✅ Qwen Omni 构成了基础,确保<1s 对话响应性通过超低延迟推理。

 

✅ 这结合了专门用于识别障碍物、路径和交通信号的自定义 YOLO 图像模型。

 

✅ 通过将光流算法与自定义导航策略相结合,该系统以每秒 20 帧的速度提供近乎实时的路径规划反馈。

 

关键的是,开发过程由实际反馈驱动。开发者帆哥亲自佩戴眼镜,体验了一天的视障人士街道生活,并邀请了上海杨浦区盲人协会主席参与测试。这种亲身实践的真实用户反馈促成了多次关键迭代和优化,进展仍在继续。

 

该项目所有代码、硬件清单、3D 外壳模型以及 AI 眼镜的部署教程现已在 ModelScope 上开源。

 

(🔗 :https://modelscope.cn/models/archifancy/AIGlasses_for_navigation)

 

(@ModelScope)

 

2、Vogent 发布 VoTurn-80M 模型,用 80M 参数解决语音智能体「何时回应」难题

 

Vogent 发布了 VoTurn-80M,一款专为语音智能体设计的开源「轮次检测」模型。该模型创新地结合了音频和文本两种模态,以解决传统方案中「何时回应」的难题,在实现 94.1% 准确率的同时,将延迟控制在 7ms,旨在让 AI 对话体验更自然流畅。

 

  • 多模态融合架构: VoTurn-80M 的核心突破在于其多模态设计。它不仅通过 Whisper 编码器分析音频信号中的语调、停顿和节奏,还结合对话上下文的文本信息进行综合判断。这使得模型能区分「思考时的停顿」和「真正结束的回答」,大幅提升了交互的智能性。

  • 高效的轻量化模型: 该模型基于 SmolLM2-135M,并通过模型烧蚀(ablation)技术精简至仅 ~80M 参数。这一优化在不牺牲准确率的前提下,显著降低了计算需求,使其能够在消费级硬件上实现实时推理,非常适合实际应用部署。

  • 实时性能与高准确率: 在 NVIDIA T4 GPU 上, VoTurn-80M 的单次推理延迟仅为~7ms,远低于人类感知的阈值,确保了对话的即时响应。同时,其准确率达到了 94.1%,在精度和速度之间取得了出色的平衡。

  • 精心构建的训练数据集: 为应对真实对话的复杂性,Vogent 结合了真人录制的自然对话数据和系统性生成的合成数据。合成数据特别关注了易导致误判的边缘场景,如包含「嗯……啊……」的犹豫、多子句的回答、列表式列举等,增强了模型的鲁棒性。

 

GitHub 仓库:

 

https://github.com/vogent/vogent-turn

 

(@Vogent Blog)

02有亮点的产品

1、OpenAI 收购 Mac 端 AI 界面 Sky,巨头布局消费级 AI 再落一子

 

今天,OpenAI 宣布收购了一家名为** Software Applications 的初创公司,这家公司由多位苹果资深员工创办**,致力于打造一款面向 Mac 的 AI 驱动用户界面。彭博社分析道,这笔收购是 OpenAI 在让 AI「更好地在电脑上完成任务」方面迈出的重要一步。

 

作为此次收购的一部分,OpenAI 将把 Software Applications 打造的 AI 助手 Sky 整合进 ChatGPT,包括这款产品在 macOS 上的集成能力与其产品设计理念。同时,Software Applications 的整个团队将加入 OpenAI。交易的具体财务条款尚未披露。

 

Software Applications 此前曾于 2023 年 1 月获得** 650 万美元的种子轮融资,投资方包括 OpenAI 首席执行官 Sam Altman 与 Figma CEO Dylan Field **等知名人士。OpenAI 特别强调,此次收购 Software Applications 由公司两位其他高管主导,并经独立交易与审计委员会批准。

 

今年早些时候,Software Applications 发布了名为「Sky」的 AI 助手,能够帮助用户在 Mac 上执行任务或回答问题,如写作、规划、编程等。该功能采用悬浮式界面设计,可理解用户屏幕上的内容,并直接使用应用程序来执行任务。目前 Sky 尚未面向公众开放。

 

值得注意的是,Software Applications 的创始人团队此前已经有过一次引人注目的成功套现。

 

Software Applications 的联合创始人兼 CEO 为 Ari Weinstein联合创始人兼 CTO 为 Conrad Kramer。二人在 2013 年左右共同创立了自动化应用 Workflow,并在 2017 年将其出售给苹果。

 

这款应用后来演变成如今 iPhone 和 Mac 上广受欢迎的 「快捷指令」(Shortcuts)技术 。在被苹果收购后,他们都在苹果工作了一段时间,随后于 2023 年 8 月离职创办了 Software Applications。

 

OpenAI 近期正积极通过并购扩展版图。今年早些时候,公司在一轮二级市场股份交易中估值已达到 5000 亿美元。此后,OpenAI 以 11 亿美元收购了产品测试公司 Statsig,并完成了约 65 亿美元收购由前苹果设计总监 Jony Ive 共同创办的 AI 硬件初创公司——这两笔交易均为全股票交易。此外,OpenAI 还进行了多项较小规模的收购。

 

通过吸纳 Software Applications 团队的产品能力与 macOS 的深度集成经验,OpenAI 或许希望进一步推动 ChatGPT 从对话式 AI 进化为真正能理解上下文、操作系统和用户意图的个人助手。

 

(@智东西)

 

2、微软推出 Copilot 语音模式的新虚拟角色 Mico,AI 版大眼夹助手首次亮相

 

彩蛋:如果您多次点击 Mico,它就会改变形状并最终变成 Clippy。

 

距离微软经典的 Office 大眼夹助手 **Clippy **首次亮相已近 30 年,尽管 Clippy 在 2001 年 Office XP 时代被「退休」,之后微软曾尝试以 Windows Phone 平台上的 Cortana 延续智能助手理念,但当时的技术尚未成熟。如今,微软再次尝试,通过 Copilot 语音模式引入新的虚拟角色——Mico。

 

image

 

 

微软 AI 部门产品与增长副总裁 Jacob Andreou 谈到:「大眼夹的出现是为了让我们迈步向前。」据介绍,微软已测试 Mico 数月。这一角色能在语音交互时实时呈现表情,默认启用,用户也可选择关闭这只「弹跳小球」。

 

Mico 会根据用户说话内容实时变化表情。例如,当用户谈论悲伤话题时,Mico 的表情也会立即表现出相应情绪。「所有技术都退居幕后,你只需与这个可爱的球体对话,逐渐建立情感联系。」Andreou 说。

 

首批上线地区包括美国、英国和加拿大。Mico 依托 Copilot 新记忆功能,可调用与用户相关的事实和工作内容。

 

image

 

 

微软还在 Mico 中加入了「Learn Live」模式,能将 Mico 变身为苏格拉底式导师,鼓励引导式学习,而非直接给出答案。该模式利用互动白板和视觉提示,特别面向备战考试的学生或练习新语言的用户。

 

微软 AI 首席执行官 Mustafa Suleyman 曾表示,Copilot 未来将拥有固定形象、独立空间与「成长」过程。Mico 正是微软赋予 Copilot 身份感的重要一步。

 

此外,微软近期开展了「让人们与电脑对话」的新计划,在电视广告中力推 Windows 11 电脑为「可对话的电脑」。此前微软在 Windows 10 尝试推广 Cortana,也最终在 Windows 11 被关闭。

 

相比大眼夹和 Cortana,Mico 拥有更强能力。但微软仍面临劝服用户接受与电脑、手机对话为自然而非尴尬的新挑战。和前作一样,Mico 也藏有彩蛋,比如快速点击 Mico 会激发特殊效果——Andreou 笑言:「在某种意义上,我们都生活在大眼夹的阴影下。」

 

(@cnBeta、@testingcatalog@X)

03有态度的观点

1、A16Z:AI 视频模型不会一家独大,产品层才是最大机会

 

image

 

 

风险投资机构 A16Z 近日发表文章指出,AI 视频生成领域不会出现「一家通吃」的「神级模型」,而是逐渐走向专业化与产品化阶段。

 

A16Z 合伙人 Justine Moore 在文章中表示,早期行业竞争主要集中在 benchmark 指标,如生成时长、物理效果和逼真度,但如今不同模型已开始分工明确。

 

例如,Veo 3 更擅长「物理仿真与音视频同步」,适合专业创作场景;而 Sora 2 则突出「叙事与多镜头生成」,更适合娱乐和梗图创作。

 

除了这两款代表性产品,市场上还出现了 Grok(动漫生成)、Hedra(长视频人物)、Seedance Pro(多镜头场景)以及 Wan(开源模型)等差异化方案。

 

Moore 将这一趋势比作 17、18 世纪绘画从「逼真」转向「风格化」,认为视频模型正进入一个「多样化与专业化」的艺术时代。

 

文章强调,当前最大机会在于「产品层」。尽管模型能力不断提升,但普通用户仍需依赖复杂流程才能完成创作,例如结合 Ideogram、nano-banana、Veo 3、Hedra 与剪辑工具。

 

Moore 指出,这些环节完全可以被整合为一站式产品,从而降低门槛,释放更大市场潜力。她还提到,近期中国 AI 创企 LiblibAI 完成 1.3 亿美元 B 轮融资,成为迄今国内 AI 应用领域最大规模融资案例。

 

这一趋势显示,行业正从「卷模型性能」转向「卷产品体验」,对创业公司而言正是最佳时机。

 

(@APPSO)

 

image

 

 

923eb4bdacb13bc611f4de38b497e940

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

image

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/945647.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ABP - 依赖注入和属性注入

一、依赖注入(Dependency Injection) 核心辅助类:IServiceCollection:扩展方法(如AddTransient、AddScoped)。 DependencyAttribute:标记注入生命周期(Transient/Scoped/Singleton)。 IIocResolver:手动解析…

ABP vNext 框架功能模块 - 依赖注入和属性注入

一、依赖注入(Dependency Injection) 核心辅助类:IServiceCollection:扩展方法(如AddTransient、AddScoped)。 DependencyAttribute:标记注入生命周期(Transient/Scoped/Singleton)。 IIocResolver:手动解析…

SAP维护汇率的关键Tcode

Tcode: OB08 维护汇率Tcode:OBBS 维护汇率的折算比率☆ No matter how much you change, you still have to pay the price for the things youve done.

幂函数

观察幂函数图像结论: 所有的幂函数都过1,1点,幂函数在第一象限必有图像。 a为负数时,不过0,0点,其余都有0,0点。 一、画函数用结论,a<0,单调递减,a>0,单调递增。 二、0<a<1之间,增的缓,a>1,…

ABP vNext 框架功能模块 - 动态API(Dynamic API)[RemoteServiceAttribute | DynamicApiControllerBuilder]

动态API(Dynamic API) 核心辅助类:DynamicApiControllerBuilder:动态生成API控制器。 RemoteServiceAttribute:标记类/方法为远程服务(自动暴露API)。在ABP框架中,DynamicApiControllerBuilder和RemoteService…

第4天(中等题 滑动窗口、哈希表)

打卡第四天 两道中等题哈希表记录元素频率:哈希表程序表示:滑动窗口+哈希表优化算法耗时≈一小时 明天继续 小tips:不小心删除可以用 Ctrl+Z 撤回刚刚消除的代码/文字

ABP vNext 框架功能模块 - 动态API(Dynamic API)

** 动态API(Dynamic API)** 核心辅助类:DynamicApiControllerBuilder:动态生成API控制器。 RemoteServiceAttribute:标记类/方法为远程服务(自动暴露API)。在ABP框架中,DynamicApiControllerBuilder和RemoteSe…

ABP vNext 框架功能模块 - 模块化(Modularity)

模块化(Modularity) 核心辅助类:AbpModule:所有模块的基类,定义模块生命周期方法。 DependsOnAttribute:声明模块依赖关系。 ModuleInitializer:模块初始化器(自动生成)。 IModuleContainer:模块容器,用于运…

ABP vNext 框架功能模块

以下是ABP框架中各核心功能的辅助类及示例说明,涵盖模块化、依赖注入、ORM集成等关键特性: 一. 模块化(Modularity) 核心辅助类:AbpModule:所有模块的基类,定义模块生命周期方法。 DependsOnAttribute:声明模块…

题解:P14299 [JOI2023 预选赛 R2] 填充 / Painting

\(\displaystyle \large {题目传送门}\) 题面 给定一个一个 H*W 的矩形 , 每个坐标上有一个颜色 , 上下左右相邻的同颜色节点可以形成连通块 。 你可以对任意一个连通块 , 进行一次并仅有一次的染色 , 求新形成的连…

Devolutions Server权限提升漏洞分析与修复指南

本文详细分析了CVE-2025-11957漏洞,该漏洞存在于Devolutions Server 2025.2.12.0及更早版本中,由于临时访问工作流程的授权机制存在缺陷,允许经过身份验证的基本用户通过精心构造的API请求自我批准或批准其他用户的…

AI股票预测分析报告 - 2025年10月24日 - 20:08:50

AI股票预测分析报告 - 2025年10月24日body { font-family: "Microsoft YaHei", "Segoe UI", Tahoma, Geneva, Verdana, sans-serif; line-height: 1.6; color: rgba(51, 51, 51, 1); max-width: 1…

在 Astro 博客中优雅使用 51.la 统计数据

在 Astro 博客中使用 51.la 免费流量统计,通过解析 widget JS 自行渲染访问数据,既保留统计功能,又可自定义展示,让你直观了解博客访客情况作为老牌网站流量统计服务商,51.la 提供每月高达 1000 万次的免费统计额…

申威服务器安装Java11(swjdk-11u-9.ky10.sw_64.rpm)详细操作步骤(附安装包)

申威服务器安装Java11(swjdk-11u-9.ky10.sw_64.rpm)详细操作步骤(附安装包)​这是申威架构(国产芯片,常见于Kylin V10等国产系统)专用的 ​Java 11 版本(RPM安装包)​,包名为 java-11.0.7-swjdk-11u-9.ky10.…

str.endswith() 类似的方法

在Python中,与str.endswith()类似的方法(主要涉及字符串的开头/结尾检查、子串搜索等)有很多,以下是核心方法及其功能对比: 1. 开头检查:str.startswith()功能:检查字符串是否以指定前缀开头,返回True/False。…

深度剖析OpenHarmony AI Engine:开发板端侧大模型推理插件机制全链路拆解 - 实践

深度剖析OpenHarmony AI Engine:开发板端侧大模型推理插件机制全链路拆解 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font…

Linux下的拼音输入法 (3)

此贴简介libgooglepinyin-0.1.2,刚看了几分钟(持续更新中): data/下: 730 2012年 2月 3日 CMakeLists.txt227 2012年 2月 3日 googlepinyin.pc.in3.5M 2012年 2月 3日 rawdict_utf16_65105_freq.be.txt3.5M 2012年…

P2606 [ZJOI2010] 排列计数 分析

题目概述 题目链接:https://www.luogu.com.cn/problem/P2606。 称一个 \(1 \sim n\) 的排列 \(p_1,p_2, \dots ,p_n\) 是 Magic 的,当且仅当 \[\forall i \in [2,n],p_i > p_{\lfloor i/2 \rfloor} \]计算 \(1 \s…

实用指南:MacOS - Clang使用bits/stdc++.h - 非官方(竞赛用) - 通用方法

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …