英伟达入资 11Labs,黄仁勋:语音 AI 带来情感、共情和联结;Qwen3-TTS-Flash:多语言,多音色,多方言丨日报

news/2025/9/24 14:15:12/文章来源:https://www.cnblogs.com/Agora/p/19109169

 

image

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01 有话题的技术

1、英伟达投资ElevenLabs,黄仁勋:语音 AI 带来情感、共情和联结

 

NVIDIA 宣布,已对 AI 语音技术初创公司 ElevenLabs 进行战略投资。

 

关键亮点

 

  • 战略投资 AI 语音: NVIDIA 确认已投资 AI 语音技术公司 ElevenLabs,CEO Jensen Huang 与 ElevenLabs 联合创始人 Mati Staniszewski 进行了公开对话,强调了 ElevenLabs 在其数字声音传播中的重要性。

  • 技术与艺术的融合: Jensen Huang 评论称,ElevenLabs 的文本转语音(Text-to-Speech)技术已超越单纯的技术层面,达到了「艺术」的高度,并能够传递情感和同理心。

  • 美英科技联盟强化: 此次投资恰逢美英两国在 AI 和量子计算领域签署 420 亿美元技术协议,旨在加强两国在尖端科技领域的合作与研究。

  • NVIDIA 在英布局加速: 该投资是 NVIDIA 20 亿英镑对英国 AI 初创企业承诺的一部分,NVIDIA 还计划在英国投资高达 110 亿英镑建设「AI 工厂」,部署 120,000 块 GPU,以支持英国本土 AI 发展。

  • ElevenLabs 快速崛起: ElevenLabs 由前 Google 和 Palantir 员工创立于 2022 年,已成为 AI 语音领域的领导者,最新估值达到 66 亿美元。

 

ElevenLabs 是一家估值 66 亿美元的初创公司,其技术已广泛应用于游戏、媒体和无障碍工具等领域。NVIDIA 的投资细节未公开,但表明了双方的战略合作意向。

 

相关链接:

 

https://www.startuphub.ai/ai-news/funding-round/2025/nvidia-backs-ai-voice-pioneer-elevenlabs-amid-us-uk-lockstep-tech-alliance/

 

( @StartupHub.ai)

 

2、Qwen3-Omni 震撼发布:阿里开源首个端到端全模态 AI 大模型,性能直逼 GPT-4o

 

image

 

 

阿里巴巴 Qwen 团队近日震撼发布其最新一代 30B 参数「全模态 AI 大模型」Qwen3-Omni。这是全球首个真正端到端的开源多模态模型,能够同时处理文本、图像、音频、视频输入,并实时生成流式文本和自然语音输出。其性能在多项评测中已直逼 OpenAI 的 GPT-4o 和 Google 的 Gemini 2.5 Pro,为多模态 AI 交互树立了新标杆,并支持免费商用。

 

关键亮点

 

  • 「端到端」全模态能力: Qwen3-Omni 采用统一架构,直接处理文本(支持 119 种语言)、图像、音频(支持 19 种语言)和视频(最长 30 分钟)输入,并实时生成流式文本和语音输出(支持 10 种语言),彻底摆脱传统「拼接式」多模态模型的性能折衷和高延迟问题。

  • 性能比肩顶尖闭源模型: 在 36 个音频和音视频基准测试中,Qwen3-Omni 斩获 22 项 SOTA(State-Of-The-Art,最优性能),与 Gemini 2.5 Pro 比肩。其多语言翻译能力支持 28 种语言互译,噪声环境下语音识别的词错误率 (WER) 低于 8%。

  • Thinker-Talker 双核架构: 模型核心采用创新 Thinker-Talker 双核架构,无缝整合多模态理解 (Thinker 模块) 和实时生成 (Talker 模块)。Talker 模块实现低至 211 毫秒的首包延迟,接近人类对话的实时性。

  • 大规模开源与免费商用: Qwen3-Omni 基于 Apache 2.0 许可开源,提供三种 30B 参数模型变体:Qwen3-Omni-30B-A3B-Instruct(优化指令跟随)、Qwen3-Omni-30B-A3B-Thinking(增强复杂推理)和 Qwen3-Omni-30B-A3B-Captioner(低幻觉音频字幕生成),为开发者和企业提供免费使用和定制化能力。

  • 高效率与鲁棒性: 通过端到端联合优化训练,模型在处理长达 30 分钟视频、复杂噪声语音等场景下展现出强大鲁棒性和高效语义提取能力,同时在单模态任务上保持了与 Qwen2.5 相当的性能,真正做到「全能无短板」。

 

Qwen3-Omni 已正式发布,并提供三种 30B 参数模型变体供下载,基于 Apache 2.0 许可开源免费商用。用户可通过 Qwen Chat 在线试用,在 GitHub 或 Hugging Face 下载模型,并通过阿里云 API 服务进行接入。

 

相关链接:

 

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Captioner

 

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Thinking

 

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct

 

Github:https://github.com/QwenLM/Qwen3-Omni/blob/main/assets/Qwen3_Omni.pdf

 

(@AI 密码花园)

 

3、Qwen 团队发布旗舰级多语言多音色文本转语音模型 Qwen3-TTS-Flash

 

Qwen 团队近日推出其旗舰级多语言多音色文本转语音模型 Qwen3-TTS-Flash。该模型凭借卓越的稳定性和相似度,在 seed-tts-eval 与 MiniMax 多语测试集上均取得了 SOTA 级别的领先地位。

 

Qwen3-TTS-Flash 定位为一款顶级语音合成模型,采用统一架构,支持 17 种高保真音色,每种音色均可输出 10 种语言。语言覆盖范围广泛,包括普通话、英式和美式英语及其他地区口音,以及法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语等。此外,模型还特别支持 9 种汉语方言,如闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话。

 

在性能方面,该模型表现出色:单并发首包延迟最低可达 97ms,满并发首包延迟为 420ms,RTF(实时因子)最低可达 0.30。其功能也十分全面,具备自动语气调节、鲁棒的文本处理以及混合语种生成能力,确保了高品质的语音输出。

 

目前,Qwen3-TTS-Flash 已同步上线 API、Demo 以及多段音频样例。

 

相关链接:

 

https://qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list(@通义千问)

02 有亮点的产品

1、「Plaud AI 录音笔」高调入华:海外营收破亿

 

image

 

 

Plaud 三款产品已在电商平台开启预售(图源/企业)

 

曾经不在中国大陆地区销售的智能录音笔 Plaud,最终还是回到内地。

 

9 月 22 日,Plaud 在新品发布会上正式宣布进入中国内地市场,其中,Plaud Note Pro 新品售价为 1299 元;同期开启预售的还包括 Plaud NotePin S 与 Plaud Note 两款产品,分别售价是 1249 元与 1149 元。

 

从价格来看,三款产品定价均高于国内同类竞品。此前钉钉此前发布的 DingTalk A1 青春版定价 499 元、旗舰版定价 799 元,出门问问的 TicNote 电商平台售价为 999 元。

 

Plaud 这次发布会规模不大,没有太多讨论度,显得很低调,与其在海外的高举高打对比鲜明。

 

就在 7 月,官方数据显示,Plaud 全球销量已突破百万台规模,它首创的 AI 录音产品在过去两年中每年均实现十倍级的增长,截至 2024 年 11 月年化收入达到 1 亿美金。对此,硬氪曾做过相关报道。

 

Plaud 之所以短期内迅速起量,源于其发现了一个不被重视的细分需求。在海外市场,一个典型的刚需场景是,苹果手机用户线上会议频繁,却缺乏与之匹配的一体化录音转写方案。用户往往需要先用设备录音,再借助第三方软件转写和分析。Plaud 所提供的「硬件+软件」服务可以有效填补上述市场空白。

 

更重要的是,Plaud 在 AI 大模型出现后立刻作出反馈,吃下第一波 AI 录音机的流量。

 

Plaud 虽然生于深圳,但过去几年都在大陆以外的地区和国家销售。

 

这是一个很明智的决定。当前中国支持实时转写的 AI 录音笔占比超 35%;语音转写技术转化率从 2021 年的 68%、到 2025 年已升至 87%,支持 35 种语言的实时翻译功能成为高端设备标配。

 

这也意味着,Plaud 所面对的用户不需要被教育。他们选择众多,对产品功能、体验及性价比均抱有极为明确的高要求。

 

在多个强势品牌盘踞、竞争高度内卷面前,新公司想做内地市场的硬件生意,难度直接会拉到最高级。

 

这次 Plaud 的中国发布会表现克制,也显示出更多试探的意味。Plaud 很清楚,凭借其海外市场的表现,自己在小圈子里享有一定的品牌溢价优势。但想在内地市场真正突围,胜算未知。(@硬氪)

 

2、Google TV 集成「Gemini」:实现自由对话与个性化娱乐学习

 

谷歌宣布,其旗下的大型语言模型 Gemini 正式进驻 Google TV,为用户带来全新的智能交互体验。首批搭载该功能的设备为 TCL QM9K 系列,并计划在今年内陆续扩展至 Google TV Streamer、Walmart onn。 4K Pro, 以及 2025 年款海信和 TCL 等多款电视型号。

 

用户只需通过 「Hey Google」 语音指令或按下遥控器上的麦克风键,即可唤醒 Gemini,与电视进行自然、流畅的对话。Gemini 不仅能提供个性化的服务,如 剧集回顾跨口味选片 ,还能进行技能教学和 YouTube 视频推荐,极大地丰富了家庭娱乐场景。

 

谷歌强调,此项更新是在现有 Google Assistant 功能基础上进行的扩展,所有原有的指令将全部保留 。Gemini 主要增强了 自然对话多轮推理能力 ,并针对大屏环境进行了专项优化。此项服务目前面向部分国家和语言地区开放,且仅限 18 岁以上用户使用。

 

相关链接:

 

https://blog.google/products/google-tv/gemini-google-tv/( @Google Blog)

03 有态度的观点

1、Luma CEO:好莱坞已死,唯有 AI 能救

 

image

 

 

Luma AI 创始人兼 CEO Amit Jain 近日在接受采访时表示,如果好莱坞继续沿着当前的道路发展,「它已经死了」。

 

他批评当下电影产业过于保守,只依赖少数系列作品反复拍摄,缺乏对新故事和新形式的探索。

 

Jain 指出,如今动辄耗资 1 亿至 2 亿美元的大制作,让行业不敢冒险尝试更多创意,「为什么一年只拍 5 到 10 部所谓的大片,而不是尝试 50 到 100 个新点子?」

 

他认为,生成式 AI 能以更低成本、更高效率帮助创作者验证想法,让电影重新触碰「新奇感」。

 

据此前报道,Ray 3 是首个具备推理能力的生成式视频模型,能够根据创作者在静态画面上的标注(如箭头方向)生成对应的动态效果。

 

Jain 表示,这项技术将为影视创作带来全新可能性,让行业重拾创新精神。(@ APPSO)

 

image

 

image

 

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

image

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/915804.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

潍坊网站开发公司影视类网站建设

作者|晶少 转载|CSDN博客 2.4亿人在线使用文档协作无延宕…… 6万名武汉中小学生实力打造“远程课堂”活学高效…… 疫情以来,“远程”、“协作”持续大热,此局毋庸置疑。 根据QuestMobile最新发布的《2020中国移动互联网“战役”专题报告》显示&am…

心理网站建设策划书做一份网站动态图多少钱

题目描述 搜索二维矩阵 给你一个满足下述两条属性的 m x n 整数矩阵: 每行中的整数从左到右按非严格递增顺序排列。 每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target ,如果 target 在矩阵中,返回 true ;否则&…

好的h5制作网站模板wordpress互动

配置旁挂二层组网隧道转发示例 组网图形 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件扩展阅读 业务需求 企业用户通过WLAN接入网络,以满足移动办公的最基本需求。且在覆盖区域内移动发生漫游时,不影响用户的业务使用。 组网需求 AC组…

网站建设与网络推广的关系xml网站模板

现有一个使用Relu激活函数的网络,训练过程中发现,它对所有的输入样本都输出一样的预测概率,比如二分类,对所有样本的预测概率都是[0.4,0.6]。由于预测概率都一样,因此预测标签也都一样,全预测为0或1。 一开…

深入解析:一文详解回归分析的探索、分析、检验阶段,以Stata和SPSS为例

深入解析:一文详解回归分析的探索、分析、检验阶段,以Stata和SPSS为例pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: …

Vue 包依赖总结

Vue 包依赖总结我在安装依赖包时出现问题:error minimatch@10.0.3: The engine "node" is incompatible with this module. Expected version "20 || >=22". Got "16.8.0" 这个错误…

笔记_OpenCV4.5.1新增微信QRCode解码功能

原文地址:https://cloud.tencent.com/developer/article/1786320WeChatQRCode模块为OpenCV4.5.1新增功能,需要在github下载最新opencv源码master和contrib部分编译后使用。 下载和编译: 使用:#include "pch…

完整教程:模电基础:基本放大电路及其优化

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

【论文阅读】Uncertainty Modeling for Out-of-Distribution Generalization (ICLR 2022) - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

数字孪生 + 碳痕追踪:MyEMS 给能源管理装了套 “全链路全景导航”

如果说传统的能源管理是在迷雾中凭经验摸索前行,那么当下的企业则迫切需要一张清晰、实时、能指引每一步节能减碳决策的“全景地图”。这张地图不仅要能还原能源系统的全貌,更要能追踪每一份能耗的“碳足迹”,直抵管…

空间复杂度和时间复杂度

要理解和计算时间复杂度与空间复杂度,关键是分析算法中重复执行的操作次数(时间)和额外开辟的存储空间(空间)如何随输入规模n变化。下面通过具体代码示例详细说明计算方法。 一、时间复杂度计算 时间复杂度关注核…

河北网站快速排名建设学电脑培训班多少一个月

排查流程 hive任务停止是调用org.apache.hive.jdbc.HiveStatement的close()方法实现的 其底层是委托给org.apache.hive.service.cli.thrift.TCLIService.Iface客户端实例来实现。 同时,通过JDK动态代理为其织入了synchronized同步机制:其底层是委托给…

自己做免费手机网站外贸商做英文网站的目的

目录 一、问题引入 二、缓冲区 1、什么是缓冲区 2、刷新策略 3、缓冲区由谁提供 4、重看问题 三、缓冲区的简单实现 一、问题引入 我们先来看看下面的代码:我们使用了C语言接口和系统调用接口来进行文件操作。在代码的最后,我们还使用fork函数创建…

深圳松岗网站建设wordpress xmlseo

转自:技术分享 | MemAvailable 是怎么计算的-腾讯云开发者社区-腾讯云 背景 前两天安装 OceanBase 时遇到一个小问题: 很明显,安装OB时要求服务器可用内存至少 8G,不达标就无法安装。为了凑这3台10G内存的服务器我已经费了不少劲…

基于IOS26的iOS 内存分析与必要内存界定

本文是基于IOS26的iOS 内存分析与必要内存界定,能够从一定角度理解Apple系列设备的内存使用机制。前言: 最近将15和16Pro更新了IOS26,在网上翻阅了一下,没有看见IOS26的内存分析文章,于是自己分析,整理笔记并水一…

深入解析:ARM架构学习9——LM75温度传感器+ADC转换器

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

破局 “节能不省钱” 悖论:开源 EMS 生态如何让中小企业用 1/3 成本实现能效跃升?

对于广大中小企业而言,能源成本是运营中不容忽视的核心支出。一个普遍的共识是:节能就是省钱。然而,当企业主们真正调研能源管理系统(EMS)时,往往会被高昂的初始投入和隐形成本劝退——动辄数十万的软件许可费、…

旅游网站开发目标网站建设人员叫什么

在使用Windows 10工作时会遇到形形色色的问题,比如笔记本电脑搜索不到无线网络。那么如何排除故障呢?下面小编与你分享具体步骤和方法。工具/材料Windows 10操作系统操作方法第1:启动Windows 10操作系统,如图所示。点击任务栏&quo…

实用指南:U盘歌单管理器 (专业车载音乐播放列表制作工具)

实用指南:U盘歌单管理器 (专业车载音乐播放列表制作工具)2025-09-24 13:58 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important…

iOS 26 性能测试实战,如何评估启动速度、CPUGPU 负载、帧率与系统资源适配(uni-app 与 iOS 原生应用性能方案)

本文围绕 iOS 26 性能测试展开,结合 Liquid Glass 特效与系统机制变化,介绍启动速度、CPU/GPU 渲染、帧率、资源加载等关键指标测试方法与工具组合,并给出 uni-app 与原生 App 的实战优化策略。iOS 26 正式发布后,…