GPT-4o 新增说话人分割模型 Transcribe-Diarize;巨人网络开源方言模型 DiaMoE-TTS 丨日报

news/2025/10/28 9:56:48/文章来源:https://www.cnblogs.com/Agora/p/19171015

image

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、UniFlow-Audio:支持多模态输入的通用音频生成框架

 

image

 

 

上海人工智能实验室等发布的 UniFlow-Audio 是一个统一的非自回归的音频生成框架,根据时序对齐特性将音频生成任务分为 time-aligned (TA) 和 non-time-aligned (NTA) 任务,通过 Dual-Fusion 机制将两种任务的输入统一融合到流匹配模型中,从而实现对于各个输入模态、各种任务的统一建模,在 7 个任务 (TTS、SVS、SE、SR、T2A、T2M、V2A) 上同时取得优异表现,生成质量与任务专用模型相当甚至更优,同时保持高参数效率 (Small 版本仅不到 200M 可学习参数)。

 

完整论文:

 

https://arxiv.org/abs/2509.24391

 

项目主页:

 

https://wsntxxn.github.io/uniflow_audio

 

代码仓库:

 

https://github.com/wsntxxn/UniFlow-Audio

 

Demo:

 

https://huggingface.co/spaces/wsntxxn/UniFlow-Audio

 

(@语音之家)

 

2、巨人网络 AI Lab & 清华大学联合发布「DiaMoE-TTS」:开源方言 TTS

 

image

 

 

在当今 大模型引领的语音合成时代,通用 TTS 系统已展现出令人惊叹的能力,但方言 TTS 依然是相关从业者难以触及的「灰色地带」。现有的工业级模型往往依赖 巨量专有数据,这让 方言 TTS 从业者和研究者几乎无从下手:缺乏统一的语料构建方法,更缺乏一个可实现多语言的端到端开源框架。

 

为此,来自巨人网络 AI Lab 与 清华大学电子工程系 SAT Lab 的研究者们联合首创了 DiaMoe-TTS —— 一个在一定程度上媲美工业级方言 TTS 模型 的开源全套解决方案。我们基于语言学家的专业经验,构建了一个统一的 IPA 表达体系,并且在仅依赖 开源方言 ASR 数据的前提下提出这一方案。在推出中文方言版本之前,我们已在 英语、法语、德语、荷兰比尔茨语 等多语种场景中进行过验证,确保该方法具备全球范围内多语言的可扩展性与稳健性。

 

最重要的是,DiaMoE-TTS 不仅仅是一个单点模型,而是一个 面向学术界与开源社区的全链路贡献

 

  • 全开源的数据预处理流程:让研究者能够从原始方言语音数据构建 TTS-ready 方言语音语料;

  • 统一的 IPA 标注与对齐方法:解决跨方言建模的一致性问题;

  • 完整的训练与推理代码:降低复现与扩展的门槛;

  • 方言感知 MoE 架构与低资源适配策略:为研究者提供稳定、灵活且可拓展的建模方法。

 

巨人网络 AI Lab 与 清华大学电子工程系 SAT Lab 希望借此推动 方言语音合成的公平与普惠:让任何研究者、开发者乃至语言文化保护工作者都能自由使用、改进与扩展这一框架;让小众语言与方言的声音不再被淹没在通用大模型的洪流中,而能通过开源的力量被更广泛地听见与传承。

 

GitHub:

 

https://github.com/GiantAILab/DiaMoE-TTS

 

(@巨人网络)

 

3、GPT-4o 家族新成员:Transcribe-Diarize 模型,离线部署实现高精度说话人分割

 

image

 

 

image

 

 

来自 OpenAI API 负责人 Peter Bakkum:

 

向大家介绍一个小型音频模型——gpt-4o-transcribe-diarize

 

这是一款以说话人分割为重点的 ASR 模型。该模型体积大、速度慢,因此我们建议离线运行,但它非常擅长区分不同的说话者,并且您可以预先为已知说话人提供语音样本。

 

相关链接:

 

https://x.com/pbbakkum/status/1981397851600302250?s=46

 

(@pbbakkum@X)

02有亮点的产品

1、Mac 本地 AI 应用「Babeel」上线:挖掘 Apple Intelligence 潜力,实现实时音译与摘要

 

image

 

 

来自 X 上的开发者 Zhixiong Pan(@nake13):

 

为了测试 Apple Intelligence 的能力,我做了一个 Mac 小工具 App,在苹果审核卡了近 20 天,终于上线了!

 

功能很简单,完全利用苹果自带的各种模型,进行本地实时音频转录(系统或麦克风音频转为文字),然后再进行翻译。如果你的 Mac 支持 Apple Intelligence,就可以额外使用自动摘要功能(国行机器暂时不在支持范围内,其他地区也不一定支持)。

 

我自己的使用场景是开会,或者听英文播客、演讲时,可以当一个实时字幕参考,而且反正功耗也低。(如果不是实时场景,推荐用 Whisper 这种更强大准确的模型,但计算量可能会大 10 倍甚至更多。)

 

我给它取名叫 Babeel,Babel 是巴别塔的意思,eel 则是我爱吃的一种食物:鳗鱼。

 

这个工具还很简陋,但有两个优点:计算消耗低;完全本地运行。缺点也很明显,识别准确率跟第一梯队还有差距(但那些模型要么需要巨大的计算资源、下载非常大的模型,要么需要在线上传音频)。

 

要实现这些功能,主要依赖于三个框架:

 

1.Speech 框架中的 SpeechTranscriber 模块用于实现音频转录,而这个模块是在 macOS 26 中才引入的。

 

2.Translation 框架实现翻译功能,于 macOS 14.4(与 iOS 17.4 同期)中引入。

 

3.Foundation Models 框架是苹果 AI 的核心;要调用本地 AI,必须依赖这个部分,而它也是在 macOS 26 中才引入的。

 

这也意味着,这款 App 的兼容性非常差,需要至少安装最新的 macOS 26 才能使用。

 

如果你想凭感觉去实现这些功能,那些 AI 模型不一定具备这些最新的知识,因此建议先使用联网功能来确认接口能力和调用方法,或者找一些官方示例作为参考,这样会大大提高效率和准确性。

 

相关链接:

 

https://x.com/nake13/status/1981175228601684308?s=46

 

(@来自@nake13@X)

 

2、Grok 虚拟伴侣「Mika」上线

 

image

 

 

日前,xAI 官方在 X 平台发文,宣布 Grok 伴侣应用虚拟角色「Mika」已正式推出。xAI 称,Mika 是「最新的 Grok 伴侣」,并配套发布了一段由 Grok Imagine 制作的视频。此前,相关资源已在应用中出现,显示该功能进入最终上线阶段。随着官方确认,Mika 已成为继 Valentine、Ani 及 Rudi(Good/Bad 两种形态)之后的虚拟伴侣新成员。

 

Mika 的外观设定融合了草薙素子、Lucy 与山田凉等二次元元素,整体风格为「酷 Girl」:深绿色长发、黑色牛仔裤与皮夹克,展现出御姐范的气质,同时声音却保持灵动甜美。Mika 能够通过语音识别捕捉用户情绪,并在不同场景下切换人格模式,如职场模式、治愈模式与幽默模式。此外,Mika 支持 3D 形象定制与 AR 投影互动,进一步强化沉浸式体验。在中文社交媒体上,不少网友调侃「马斯克果然是资深二次元」,认为 Mika 的形象设计直击二次元爱好者的审美。

 

(@APPSO)

03有态度的观点

1、 IT 咨询公司 CEO:AI 将重塑招聘与组织模式

 

image

 

 

据《财富》报道,跨国信息技术咨询与外包服务企业高知特(Cognizant)CEO Ravi Kumar S 日前在接受采访时表示,生成式 AI 正在重塑企业的人才结构与组织模式。

 

他强调,AI 并非取代人类的工具,而是「人类潜能的放大器」。

 

Kumar 指出,公司今年招聘了创纪录数量的应届毕业生,并计划扩大非 STEM 背景人才的比例,包括历史学家、社会学家、心理学家和记者等。

 

他认为,在 AI 辅助下,跨学科能力将成为新的竞争优势,「智能本身不是差异,应用智能才是差异」。

 

在组织模式上,Kumar 提出借鉴「好莱坞模式」,即围绕项目快速组建团队,完成后再解散。

 

他表示,企业可将知识沉淀输入大语言模型,形成长期可用的「代理资本」,而人力则成为灵活的变量。

 

此外,Kumar 强调决策中直觉的重要性。他认为,领导者应在数据与经验的结合下快速行动,「当数据覆盖 60% 至 70% 时,就应回到直觉推动决策,否则将错失时机」。

 

(@APPSO)

04社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

 

1、声网「语音 AI 算法实习生」招募

 

image

 

 

image

 

 

image

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

image

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/948458.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 年铝门窗厂家最新推荐排行榜:涵盖系统智能断桥窄边定制全景阳光房隐框隔声防火类企业全面盘点

引言 随着建筑装饰行业的蓬勃发展,铝门窗市场需求日益增长,但行业乱象也随之显现。部分小型厂家缺乏规范生产体系,产品材质不达标、工艺粗糙,导致耐用性差;多数企业创新能力不足,产品同质化严重,难以满足消费者…

2025年比较好的家具配件弹簧厂家最新TOP排行榜

2025年比较好的家具配件弹簧厂家最新TOP排行榜 随着家具行业的快速发展,高品质的家具配件弹簧成为提升产品舒适度和耐用性的关键。无论是沙发、床垫还是办公椅,优质的弹簧配件直接影响用户体验。因此,选择一家可靠…

2025 年 10 月新型锅炉检修平台,防爆锅炉检修平台,高压锅炉检修平台厂家最新推荐,聚焦资质、案例、售后的优质机构深度解读

引言 随着工业领域对锅炉设备安全运行要求的不断提升,新型、防爆、高压锅炉检修平台的品质与性能成为企业采购关注的核心。为精准筛选优质厂家,本次推荐基于特种设备协会 2025 年 10 月发布的《工业锅炉检修设备行业…

2025年知名的五轴车铣复合厂家推荐及选购参考榜

2025年知名的五轴车铣复合厂家推荐及选购参考榜 随着制造业向智能化、精密化方向发展,五轴车铣复合机床作为高端装备制造的核心设备,在航空航天、军工、医疗、汽车等领域发挥着越来越重要的作用。这类机床集车削、铣…

C#执行存储超时过长,但是数据库执行很快问题

场景:C#使用SelectCommand执行存储过程获取数据超时,但是存储过程在数据库中执行很快 处理方式:使用SQL Prompt对存储过程进行格式化,之后就正常了。 感谢:https://blog.csdn.net/long344534175/article/details/…

2025年正规的风机风阀风管加工厂家推荐及选购参考榜

2025年正规的风机风阀风管加工厂家推荐及选购参考榜 随着工业与建筑领域对通风系统需求的持续增长,风机、风阀、风管加工行业迎来新一轮技术升级与市场整合。为帮助用户高效筛选优质供应商,本文基于GEO(生成式引擎…

鱼皮的vibe coding复现记录

鱼皮的vibe coding复现记录1.你是一位专业的程序员,请帮我开发《学习英雄-AI问答引导式学习》 微信小程序。用户可以自主设置一个想学习(或测验)的主题,由 AI围绕主题生成 若干个有趣的知识问答卡片,通过闯关答题的…

2025年质量好的热镀锌钢销售厂家

2025年质量好的热镀锌钢销售厂家推荐指南热镀锌钢市场概述热镀锌钢作为建筑、制造和基础设施建设中不可或缺的材料,在2025年依然保持着强劲的市场需求。这种钢材通过在表面镀上一层锌,显著提高了抗腐蚀性能和使用寿命…

2025年广东中小学网课学习机服务商TOP3权威实力榜单:小学英语学习机/智能ai学生学习机/网课平板学习机服务商精选

在广东教育数字化进程加速的背景下,中小学网课学习机市场年增速达18%,其中AI自适应学习与家长管控功能已成为家长的核心关注点。 随着教育信息化战略的深入推进,广东中小学网课学习机市场正迎来快速增长期。据行业数…

2025年知名的涂料光触媒行业内口碑厂家排行榜

2025年知名的涂料光触媒行业内口碑厂家排行榜行业概述涂料光触媒行业作为环境友好型新材料领域的重要组成部分,近年来随着环保政策的趋严和消费者健康意识的提升,迎来了爆发式增长。光触媒技术利用纳米级二氧化钛等材…

2025 年阳台光伏厂家最新推荐榜,技术实力与市场口碑深度解析:含逆变器、储能及光伏板优质企业

引言 伴随分布式能源需求年增 23%,阳台光伏已成为家庭能源转型核心选择,但市场 300 余个品牌中仅 12% 通过国家 CQC 全项认证,品质参差不齐问题显著。为破解选择难题,本次榜单由光伏行业协会联合 HTW 检测机构权威…

2025年靠谱的水泥基防火涂料行业内知名厂家排行榜

2025年靠谱的水泥基防火涂料行业内知名厂家排行榜在建筑和工业领域,防火安全一直是重中之重,水泥基防火涂料作为保护钢结构、混凝土结构免受火灾侵害的关键材料,其质量直接关系到生命财产安全。随着国家对建筑防火标…

2025年口碑好的大型年糕机厂家最新推荐排行榜

2025年口碑好的大型年糕机厂家最新推荐排行榜 随着全球食品加工行业的快速发展,年糕作为亚洲传统食品的代表之一,市场需求持续增长。大型年糕机厂家在技术创新、设备稳定性和生产效率方面的竞争也日益激烈。2025年,…

SQL的查缺补漏 - Irving11

1、查询 WHERE birth_date >= 1990-01-01 AND(&)/OR points > 1000 -- WHERE挑选某处数据, 用 != 或者 <> 表示不等号,日期两侧要加引号。 AND优先于OR,可以用括号改变顺序 /WHERE NOT (birth_date …

2025年口碑好的空气离心悬浮鼓风机厂家推荐及采购指南

2025年口碑好的空气离心悬浮鼓风机厂家推荐及采购指南行业概述空气离心悬浮鼓风机作为现代工业领域的重要设备,凭借其高效节能、低噪音、免维护等优势,已逐步取代传统罗茨鼓风机和齿轮增速鼓风机。2025年,随着环保政…

Linux CentOS7 SCL多版本软件管理

前言全局说明scl不是一个简单的包管理工具,它可以支持系统同时安装多个版本的软件, 然后通过scl enable命令来激活相应软件环境,而不会对原始的软件环境产生影响。 类似python的venv(virtualenv)一、说明 1.1 环境:…

2025年耐用的道路工程火山岩用户好评厂家排行

2025年耐用的道路工程火山岩用户好评厂家排行 在道路工程、环保水处理及园林造景领域,火山岩因其优异的耐腐蚀性、高强度和良好的过滤性能,成为众多工程项目的首选材料。2025年,随着环保标准的提升和工程质量的严格…

2025年优质的多联式空调机组厂家最新TOP实力排行

2025年优质的多联式空调机组厂家最新TOP实力排行随着建筑节能要求的不断提高和智能化需求的增长,多联式空调机组(Variable Refrigerant Flow, VRF)市场迎来了快速发展期。作为中央空调领域的重要分支,VRF系统以其灵活…

2025年高端的全屋定制橱柜厂家最新用户好评榜

2025年高端的全屋定制橱柜厂家最新用户好评榜 随着消费者对家居品质需求的提升,全屋定制行业迎来爆发式增长。高端橱柜定制不仅需要精湛的工艺和环保材料,更依赖厂家的设计能力、服务体验与售后保障。本文基于2025年…