GPT-4o 新增说话人分割模型 Transcribe-Diarize；巨人网络开源方言模型 DiaMoE-TTS 丨日报

news/2025/10/28 9:56:48/文章来源:https://www.cnblogs.com/Agora/p/19171015

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、UniFlow-Audio：支持多模态输入的通用音频生成框架

上海人工智能实验室等发布的 UniFlow-Audio 是一个统一的非自回归的音频生成框架，根据时序对齐特性将音频生成任务分为 time-aligned （TA）和 non-time-aligned （NTA）任务，通过 Dual-Fusion 机制将两种任务的输入统一融合到流匹配模型中，从而实现对于各个输入模态、各种任务的统一建模，在 7 个任务（TTS、SVS、SE、SR、T2A、T2M、V2A）上同时取得优异表现，生成质量与任务专用模型相当甚至更优，同时保持高参数效率（Small 版本仅不到 200M 可学习参数）。

完整论文：

https://arxiv.org/abs/2509.24391

项目主页：

https://wsntxxn.github.io/uniflow_audio

代码仓库：

https://github.com/wsntxxn/UniFlow-Audio

Demo:

https://huggingface.co/spaces/wsntxxn/UniFlow-Audio

（@语音之家）

2、巨人网络 AI Lab & 清华大学联合发布「DiaMoE-TTS」：开源方言 TTS

在当今 大模型引领的语音合成时代，通用 TTS 系统已展现出令人惊叹的能力，但方言 TTS 依然是相关从业者难以触及的「灰色地带」。现有的工业级模型往往依赖 巨量专有数据，这让 方言 TTS 从业者和研究者几乎无从下手：缺乏统一的语料构建方法，更缺乏一个可实现多语言的端到端开源框架。

为此，来自巨人网络 AI Lab 与清华大学电子工程系 SAT Lab 的研究者们联合首创了 DiaMoe-TTS —— 一个在一定程度上媲美工业级方言 TTS 模型的开源全套解决方案。我们基于语言学家的专业经验，构建了一个统一的 IPA 表达体系，并且在仅依赖开源方言 ASR 数据的前提下提出这一方案。在推出中文方言版本之前，我们已在 英语、法语、德语、荷兰比尔茨语 等多语种场景中进行过验证，确保该方法具备全球范围内多语言的可扩展性与稳健性。

最重要的是，DiaMoE-TTS 不仅仅是一个单点模型，而是一个 面向学术界与开源社区的全链路贡献：

全开源的数据预处理流程：让研究者能够从原始方言语音数据构建 TTS-ready 方言语音语料；
统一的 IPA 标注与对齐方法：解决跨方言建模的一致性问题；
完整的训练与推理代码：降低复现与扩展的门槛；
方言感知 MoE 架构与低资源适配策略：为研究者提供稳定、灵活且可拓展的建模方法。

巨人网络 AI Lab 与清华大学电子工程系 SAT Lab 希望借此推动 方言语音合成的公平与普惠：让任何研究者、开发者乃至语言文化保护工作者都能自由使用、改进与扩展这一框架；让小众语言与方言的声音不再被淹没在通用大模型的洪流中，而能通过开源的力量被更广泛地听见与传承。

GitHub:

https://github.com/GiantAILab/DiaMoE-TTS

（@巨人网络）

3、GPT-4o 家族新成员：Transcribe-Diarize 模型，离线部署实现高精度说话人分割

来自 OpenAI API 负责人 Peter Bakkum：

向大家介绍一个小型音频模型——gpt-4o-transcribe-diarize。

这是一款以说话人分割为重点的 ASR 模型。该模型体积大、速度慢，因此我们建议离线运行，但它非常擅长区分不同的说话者，并且您可以预先为已知说话人提供语音样本。

02有亮点的产品

1、Mac 本地 AI 应用「Babeel」上线：挖掘 Apple Intelligence 潜力，实现实时音译与摘要

来自 X 上的开发者 Zhixiong Pan（@nake13）：

为了测试 Apple Intelligence 的能力，我做了一个 Mac 小工具 App，在苹果审核卡了近 20 天，终于上线了！

功能很简单，完全利用苹果自带的各种模型，进行本地实时音频转录（系统或麦克风音频转为文字），然后再进行翻译。如果你的 Mac 支持 Apple Intelligence，就可以额外使用自动摘要功能（国行机器暂时不在支持范围内，其他地区也不一定支持）。

我自己的使用场景是开会，或者听英文播客、演讲时，可以当一个实时字幕参考，而且反正功耗也低。（如果不是实时场景，推荐用 Whisper 这种更强大准确的模型，但计算量可能会大 10 倍甚至更多。)

我给它取名叫 Babeel，Babel 是巴别塔的意思，eel 则是我爱吃的一种食物：鳗鱼。

这个工具还很简陋，但有两个优点：计算消耗低；完全本地运行。缺点也很明显，识别准确率跟第一梯队还有差距（但那些模型要么需要巨大的计算资源、下载非常大的模型，要么需要在线上传音频）。

要实现这些功能，主要依赖于三个框架：

1.Speech 框架中的 SpeechTranscriber 模块用于实现音频转录，而这个模块是在 macOS 26 中才引入的。

2.Translation 框架实现翻译功能，于 macOS 14.4（与 iOS 17.4 同期）中引入。

3.Foundation Models 框架是苹果 AI 的核心；要调用本地 AI，必须依赖这个部分，而它也是在 macOS 26 中才引入的。

这也意味着，这款 App 的兼容性非常差，需要至少安装最新的 macOS 26 才能使用。

如果你想凭感觉去实现这些功能，那些 AI 模型不一定具备这些最新的知识，因此建议先使用联网功能来确认接口能力和调用方法，或者找一些官方示例作为参考，这样会大大提高效率和准确性。

03有态度的观点

1、 IT 咨询公司 CEO：AI 将重塑招聘与组织模式

据《财富》报道，跨国信息技术咨询与外包服务企业高知特（Cognizant）CEO Ravi Kumar S 日前在接受采访时表示，生成式 AI 正在重塑企业的人才结构与组织模式。

他强调，AI 并非取代人类的工具，而是「人类潜能的放大器」。

Kumar 指出，公司今年招聘了创纪录数量的应届毕业生，并计划扩大非 STEM 背景人才的比例，包括历史学家、社会学家、心理学家和记者等。

他认为，在 AI 辅助下，跨学科能力将成为新的竞争优势，「智能本身不是差异，应用智能才是差异」。

在组织模式上，Kumar 提出借鉴「好莱坞模式」，即围绕项目快速组建团队，完成后再解散。

他表示，企业可将知识沉淀输入大语言模型，形成长期可用的「代理资本」，而人力则成为灵活的变量。

此外，Kumar 强调决策中直觉的重要性。他认为，领导者应在数据与经验的结合下快速行动，「当数据覆盖 60% 至 70% 时，就应回到直觉推动决策，否则将错失时机」。

(@APPSO)

04社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

1、声网「语音 AI 算法实习生」招募

阅读更多 Voice Agent 学习笔记：了解最懂 AI 语音的头脑都在思考什么

写在最后：

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/948458.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

2025 年铝门窗厂家最新推荐排行榜：涵盖系统智能断桥窄边定制全景阳光房隐框隔声防火类企业全面盘点

GPT-4o 新增说话人分割模型 Transcribe-Diarize；巨人网络开源方言模型 DiaMoE-TTS 丨日报

01有话题的技术

02有亮点的产品

03有态度的观点

04社区黑板报

相关文章

2025 年铝门窗厂家最新推荐排行榜：涵盖系统智能断桥窄边定制全景阳光房隐框隔声防火类企业全面盘点

2025年比较好的家具配件弹簧厂家最新TOP排行榜

2025 年 10 月新型锅炉检修平台，防爆锅炉检修平台，高压锅炉检修平台厂家最新推荐，聚焦资质、案例、售后的优质机构深度解读

2025年知名的五轴车铣复合厂家推荐及选购参考榜

C#执行存储超时过长，但是数据库执行很快问题

2025年正规的风机风阀风管加工厂家推荐及选购参考榜

鱼皮的vibe coding复现记录

2025年质量好的热镀锌钢销售厂家

2025年广东中小学网课学习机服务商TOP3权威实力榜单：小学英语学习机/智能ai学生学习机/网课平板学习机服务商精选

2025年知名的涂料光触媒行业内口碑厂家排行榜

2025 年阳台光伏厂家最新推荐榜，技术实力与市场口碑深度解析：含逆变器、储能及光伏板优质企业

2025年靠谱的水泥基防火涂料行业内知名厂家排行榜

2025年口碑好的大型年糕机厂家最新推荐排行榜

SQL的查缺补漏 - Irving11

2025年口碑好的空气离心悬浮鼓风机厂家推荐及采购指南

Linux CentOS7 SCL多版本软件管理

2025年耐用的道路工程火山岩用户好评厂家排行

2025年优质的多联式空调机组厂家最新TOP实力排行

SSE协议原理

2025年高端的全屋定制橱柜厂家最新用户好评榜