英伟达领投,语音AI初创Uniphore估值25亿美元;ElevenLabs创始人:语音的意义不在准确,而在打动丨日报

news/2025/11/6 23:10:00/文章来源:https://www.cnblogs.com/Agora/p/19197960

 

image

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、Adobe MotionStream:实时生成,解锁交互式动效控制

 

Adobe 研究团队发布了 MotionStream,实现可交互动作控制的实时视频生成。模型在单张 NVIDIA H100 GPU 上实时运行(29 FPS,0.4 秒延迟)。

 

论文链接:

 

https://huggingface.co/papers/2511.01266

 

( @_akhaliq@X)

 

2、美团 LongCat 发布 UNO-Bench 基准

 

image

 

 

多模态人工智能正从单一感知能力迈向视觉、音频与文本的统一融合,即全模态大模型(Omni-models)时代。然而,相应的评测体系却相对滞后。现有的评测工具不仅稀缺、各自为战,且几乎完全以英文为中心,缺乏对中文场景的有效支持。此外,一些现存的数据集在设计上存在局限性,例如部分问题的解答路径并非严格依赖于多模态信息的融合,这为科学评估模型真实的跨模态能力带来了一定的复杂性。

 

针对这些痛点,美团 LongCat 团队提出了一套高质量、多样化的一站式全模态大模型评测基准——UNO-Bench。该基准通过一个统一的框架,不仅能同时精准衡量模型的单模态与全模态理解能力,更首次验证了全模态大模型的「组合定律」——该定律在能力较弱的模型上呈现为短板效应,而在能力较强的模型上则涌现出协同增益,为行业提供了一种全新的、跨越模型规模的分析范式。

 

这一发现的背后,是其系统性的数据构建流程:通过完全人工标注确保高质量与丰富度,有效防止数据污染。此外,该团队还引入了创新的「多步开放式问题」,旨在突破传统选择题的局限,更具区分度地刻画模型在复杂链路上的推理能力。

 

相关链接:

 

https://meituan-longcat.github.io/UNO-Bench

 

(@ LongCat)

02有亮点的产品

1、硅谷 AI 语音公司 Uniphore 获 2.6 亿美元 F 轮融资,英伟达领投,估值 25 亿美元

 

硅谷 AI 语音公司 Uniphore 近日宣布完成 2.6 亿美元 F 轮融资,英伟达领投,估值 25 亿美元。

 

Uniphore 是一家专注于人工智能和自动化会话技术的全球独角兽企业,其创新产品正在推动客户服务、营销、运营等领域的商业变革,持续满足大型企业在数据主权、安全、合规与效率方面的严苛要求。

 

Uniphore 旗下主要产品涵盖:

 

  • 会话分析(Conversation Insights Agent):企业级对话智能,聚合自动化调优与高性能推理,助力业务洞察与决策。

  • 智能自助客服(Self-Service Agent):以 AI 虚拟助手为核心,通过语音与数字渠道提供全天候人性化服务,快速响应客户需求,并以企业知识库为基础保证准确性。

  • 实时代理助手(Real-time Guidance Agent):为客户服务座席提供 AI 驱动的实时指导和自动事务处理,显著提升工作效率与一致性。

  • 企业通信录制(Communication Recording Agent):跨渠道安全记录互动内容,支持质量监控和合规管理。

  • 市场营销 AI CDP 与代理(Marketing Agent):专为现代市场营销设计,涵盖产品知识助理、语义搜索、受众细分等,快速激活企业第一方数据并确保 GDPR 等法规合规。

 

Uniphore 立足于商业 AI 与客户服务自动化行业,服务对象包括全球银行、电信、医疗、零售、BPO 等企业。公司率先提出零数据 AI 云和多层 AI 架构,打通可组合数据层、知识层、模型层与代理层,实现企业级 AI 真实应用。Business AI Cloud 平台强调数据主权、模块化和高安全性,支持多模态数据处理与严格的合规性控制,尤其在欧洲、东南亚、中东、美国等区域市场加速扩张。

 

解决行业痛点

 

  • 客服与运营自动化降本增效:将传统呼叫中心人工服务升级为 AI 自助、自动化质量监控、实时指导、后台流程自动化,大幅度提升业务效率。

  • 数据主权与合规:通过主权化 AI 云平台,保证客户数据不流失,满足欧盟《人工智能法案》和 GDPR 等全球合规要求。

  • 多语言智能服务:覆盖全球多语言及地方化需求,尤其支持印度语言和方言,为新兴市场提供普适化语音技术。

  • AI 模型个性化与行业定制:为企业带来可定制小型语言模型,快速适配金融、零售等行业场景。

 

(@硅谷 VC 圈)

 

2、AirCaps 推出 AR 眼镜:提供实时字幕、翻译和主动 AI 洞察

 

AirCaps 推出革命性软件,将 AI 智能体 辅助功能引入真实世界的面对面对话。通过轻量化 AR 眼镜,该产品提供实时字幕、翻译和主动 AI 洞察,旨在解决虚拟会议 AI 盛行但线下对话缺乏技术辅助的痛点。它已为听障人士、多语言沟通者和会议密集型专业人士提供服务,并展现出惊人的用户参与度与商业增长,有望成为面对面沟通的捕获与智能层

 

  • 将 AI 助理引入真实对话: AirCaps 致力于将实时字幕、翻译和主动 AI 洞察直接呈现在用户的 AR 眼镜视野中,从而为线下会议和面对面交流提供智能辅助。

  • 解决线下对话痛点: 传统技术(手机、耳机、笔记本)在面对面交流中存在社交障碍和技术限制(噪音、重叠语音),导致高达 50% 的对话内容难以理解和记忆,而 AirCaps 通过 AR 眼镜提供不中断眼神交流、无声的解决方案。

  • 多目标用户群体: 广泛服务于听障人士(提供噪音环境下的实时字幕)、多语言沟通者(实时翻译),以及医疗工作者、高管、销售人员等需要高风险对话中实时 AI 智能体 辅助的专业人士。

  • 团队背景与时机优势: 创始人 Madhav Lavakare (CEO) 和 Nirbhay (CTO) 拥有 11 年智能眼镜开发经验和音频 AI 专业知识。

 

(@AirCaps 团队)

 

3、GPT-5 Pro 新增「实时上下文更新」机制:赋能动态长查询

 

GPT-5 Pro 近期引入了「实时上下文更新机制」(Real-time Context Injection),这一革命性功能允许用户在进行深度研究、报告撰写或技术分析等长时间、复杂查询时,能够随时插入新的信息或调整方向,而无需重启整个对话。此举显著提升了 LLM 智能体处理复杂任务的灵活性和效率,使 GPT-5 Pro 能够记住并修订之前的推理路径,为用户提供更连贯、更动态的 AI 辅助体验。

 

相关链接:

 

https://x.com/imxiaohu/status/1986246690555457619

 

( @imxiaohu)

03有态度的观点

1、ElevenLabs 创始人:语音的意义不在准确,而在打动

 

ElevenLabs 首席执行官兼联合创始人 Mati Staniszewski j Jennifer Li 一起探讨了团队如何以闪电般的速度交付研究级人工智能产品—从文本转语音、完全授权的 AI 音乐到实时语音代理,以及语音为何是人机交互的下一代界面。他还分享了团队的小型自主模式、全球招聘策略,以及语音市场如何在发展成为企业级平台的同时,为创作者支付超过 1000 万美元的报酬。

 

Mati 在节目的后半段提出一个更宏观的观点:「Voice isn't a feature-it's the experience itself。」(语音不是一个功能,而是一种体验。)他认为未来的 AI 公司如果还把语音当作「插件」,就会错过整个体验革命。语音不再只是输出层,而是交互逻辑的核心。语音是情感的界面,也是信任的入口。

 

他举例说,新闻类 App 如果由 AI 语音朗读时,语调轻微的变化就能影响用户对事件的情绪判断。同样,在教育场景里,语音的节奏和语气甚至能影响学生的注意力持续时间。Mati 说:「设计语音体验,其实是在设计情绪曲线。」

 

ElevenLabs 的产品哲学是 「less control, more presence」(减少操作感,增强沉浸感)。他希望用户感受到的不是「使用一个 AI」,而是「在与一个有温度的声音对话」。团队因此专门设立「人文感知」小组,成员包括语言学家、心理学家和编剧。他们的任务是—让机器学会「停顿」和「呼吸」。

 

Mati 强调:「语音的意义不在准确,而在打动。」 他引用了一段公司内部文档: 「People don't remember words.They remember how you made them feel。」(人不会记住你说了什么,只会记住你让他们的感受。)

 

(@晚点再听 LaterCast)

 

image

 

 

image

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

image

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/958180.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数学分析A 定理简单整理(部分)

第一章 集合和函数一些基础的就不理了。 可列集:与自然数集合等势的无限集 第二章 数列极限 最大数和最小数: \(\max S=x \iff \exist x \in S,\forall y \in S,y\le x\) \(\min S=x \iff \exist x \in S,\forall y …

第3章 多线程服务器的适用场合与常用编程模型 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

表相关操作

表介绍 表相当于文件,表中的一条记录就相当于文件的一行内容,不同的是,表中的一条记录有对应的标题,称为表的字段id name sex age1 cy male 252 ziy female 24id,name,sex,age称为字段,其余的,一行内容称为一…

部分页面统计用户访问时长

方式1 import { createApp } from "vue"; import { createPinia } from "pinia";import App from "./App.vue"; import router from "./router";const app = createApp(App);…

单词故事

→点击前往下载软件← 用户QQ群:656365129

【Linux笔记】网络部分——Socket编程 UDP搭建网络云服务器与本地虚拟机的基本通信

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

11月6日日记

1.今天体育课打比赛 2.明天学习java 3.多条件模糊查询时,如何处理 “项目编号 + 项目名称” 组合查询的 SQL 动态拼接?

102302149赖翊煊数据采集第二次作业

作业一 代码及其展示部分点击查看代码 from bs4 import BeautifulSoup from bs4 import UnicodeDammit import urllib.request import sqlite3class WeatherDB:def openDB(self):self.con = sqlite3.connect("wea…

ai学习机哪个品牌好?松鼠 AI 双线矩阵:学习机 + 自习室,提分更高效

2025 年 11 月 AI 学习机首选!松鼠 AI 双线矩阵:学习机 + 自习室,提分更高效! 在教育数字化加速的 2025 年,AI 学习机已成为家庭学习核心工具,但单一依赖学习机常陷入 “诊断不深、练习盲目、缺乏监督” 的困境。…

招聘实习生丨加入我们,共建 RTE 开发者社区

RTE 开发者社区运营实习生(实时互动 / Voice AI 方向,本招聘长期有效)地点:北京朝阳区望京南/上海杨浦区五角场这份实习将给你带来:产品与技术成长: 深入学习垂类 AI 产品从技术到落地的全生命周期,构建全面的产…

引领未来,智启新程:Compete MIS平台——低代码时代的全能信息化管理解决方案

平台核心优势包括: 1. 双核驱动架构:提供Java和Go双版本服务端,分别满足高稳定性与高效能需求;客户端采用C# WPF开发,通过插件化设计实现灵活扩展与快速更新。 2. Manager默认应用:集成进销存与财务管理功能,实…

终端

参见:从电传打字机到 xterm ——人类与终端的 70 年 | 小红书

2025.11.06 - A

今天上了数据结构和体育,感觉挺好,就是眼睛片碎一地了,惶恐惶恐

CF2085D Serval and Kaitenzushi Buffet

这里是摘要题目链接 比较 mini 的模拟赛考到了,想了半小时 DP 终于在结束前 5min 成功想出正解但是并没有写完。 解题思路 首先我们考虑什么时候可以拿取寿司。容易发现因为我们必须在 \(n\) 分钟结束时吃完所有拿取的…

STM32时钟学习11.6

STM32时钟树,APB1是低速,APB2是高速,锁相环做乘法,分频器做除法,复用器做选择,开启外设时钟时注意外设在哪个时钟线上。自动重装载寄存器,上计数,从0计数到ARR+1后会自动回到0继续计数,重复RCR+1次后产生事件…

2025.11.6总结

今天继续软考的学习。 通过软考模拟系统熟悉考试流程,上午题2h,下午题2h。上午题最早90min后交卷。多的30min可加入下午题的做题时间。 模拟系统的题做了做,发现做上午题的时候做的很快,会的,很快选出来了,不会的…

高级程序语言设计的四次作业

一.运行程序 1.2.二. 1.求pi2.逻辑表达式中的运算符,只有会影响表达式求值时,才会执行3.用for循环输出六行,第一行有FEDCBA,第二行是FEDCB,第三行是FEDC....,以此类推4.编程输入n, 计算s=1+(1+2)+(1+2+3)+…+(1+…

11月6日

今天系统学习了Java的异常处理机制。核心在于理解try-catch-finally这个强大的语法结构。我认识到,程序中的错误并非不可控,通过主动捕获(catch)Exception及其子类,可以优雅地处理运行时问题,保证程序的健壮性,避…

2024 暑期模拟赛 #11

90 + 100 + 52 + 30 = 272, Rank 1/6.下次一定要认真认真认真算算动态空间了 /ll 第一次知道 set 不能指针相减 /jk链接:link 题解:link 的题解部分 时间:3h20min (2025.11.06 18:40~22:00) 题目数:4 难度:A B C …