
开发者朋友们大家好:
这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、UniFlow-Audio:支持多模态输入的通用音频生成框架

上海人工智能实验室等发布的 UniFlow-Audio 是一个统一的非自回归的音频生成框架,根据时序对齐特性将音频生成任务分为 time-aligned (TA) 和 non-time-aligned (NTA) 任务,通过 Dual-Fusion 机制将两种任务的输入统一融合到流匹配模型中,从而实现对于各个输入模态、各种任务的统一建模,在 7 个任务 (TTS、SVS、SE、SR、T2A、T2M、V2A) 上同时取得优异表现,生成质量与任务专用模型相当甚至更优,同时保持高参数效率 (Small 版本仅不到 200M 可学习参数)。
完整论文:
https://arxiv.org/abs/2509.24391
项目主页:
https://wsntxxn.github.io/uniflow_audio
代码仓库:
https://github.com/wsntxxn/UniFlow-Audio
Demo:
https://huggingface.co/spaces/wsntxxn/UniFlow-Audio
(@语音之家)
2、巨人网络 AI Lab & 清华大学联合发布「DiaMoE-TTS」:开源方言 TTS

在当今 大模型引领的语音合成时代,通用 TTS 系统已展现出令人惊叹的能力,但方言 TTS 依然是相关从业者难以触及的「灰色地带」。现有的工业级模型往往依赖 巨量专有数据,这让 方言 TTS 从业者和研究者几乎无从下手:缺乏统一的语料构建方法,更缺乏一个可实现多语言的端到端开源框架。
为此,来自巨人网络 AI Lab 与 清华大学电子工程系 SAT Lab 的研究者们联合首创了 DiaMoe-TTS —— 一个在一定程度上媲美工业级方言 TTS 模型 的开源全套解决方案。我们基于语言学家的专业经验,构建了一个统一的 IPA 表达体系,并且在仅依赖 开源方言 ASR 数据的前提下提出这一方案。在推出中文方言版本之前,我们已在 英语、法语、德语、荷兰比尔茨语 等多语种场景中进行过验证,确保该方法具备全球范围内多语言的可扩展性与稳健性。
最重要的是,DiaMoE-TTS 不仅仅是一个单点模型,而是一个 面向学术界与开源社区的全链路贡献:
-
全开源的数据预处理流程:让研究者能够从原始方言语音数据构建 TTS-ready 方言语音语料;
-
统一的 IPA 标注与对齐方法:解决跨方言建模的一致性问题;
-
完整的训练与推理代码:降低复现与扩展的门槛;
-
方言感知 MoE 架构与低资源适配策略:为研究者提供稳定、灵活且可拓展的建模方法。
巨人网络 AI Lab 与 清华大学电子工程系 SAT Lab 希望借此推动 方言语音合成的公平与普惠:让任何研究者、开发者乃至语言文化保护工作者都能自由使用、改进与扩展这一框架;让小众语言与方言的声音不再被淹没在通用大模型的洪流中,而能通过开源的力量被更广泛地听见与传承。
GitHub:
https://github.com/GiantAILab/DiaMoE-TTS
(@巨人网络)
3、GPT-4o 家族新成员:Transcribe-Diarize 模型,离线部署实现高精度说话人分割


来自 OpenAI API 负责人 Peter Bakkum:
向大家介绍一个小型音频模型——gpt-4o-transcribe-diarize。
这是一款以说话人分割为重点的 ASR 模型。该模型体积大、速度慢,因此我们建议离线运行,但它非常擅长区分不同的说话者,并且您可以预先为已知说话人提供语音样本。
相关链接:
https://x.com/pbbakkum/status/1981397851600302250?s=46
(@pbbakkum@X)
02有亮点的产品
1、Mac 本地 AI 应用「Babeel」上线:挖掘 Apple Intelligence 潜力,实现实时音译与摘要

来自 X 上的开发者 Zhixiong Pan(@nake13):
为了测试 Apple Intelligence 的能力,我做了一个 Mac 小工具 App,在苹果审核卡了近 20 天,终于上线了!
功能很简单,完全利用苹果自带的各种模型,进行本地实时音频转录(系统或麦克风音频转为文字),然后再进行翻译。如果你的 Mac 支持 Apple Intelligence,就可以额外使用自动摘要功能(国行机器暂时不在支持范围内,其他地区也不一定支持)。
我自己的使用场景是开会,或者听英文播客、演讲时,可以当一个实时字幕参考,而且反正功耗也低。(如果不是实时场景,推荐用 Whisper 这种更强大准确的模型,但计算量可能会大 10 倍甚至更多。)
我给它取名叫 Babeel,Babel 是巴别塔的意思,eel 则是我爱吃的一种食物:鳗鱼。
这个工具还很简陋,但有两个优点:计算消耗低;完全本地运行。缺点也很明显,识别准确率跟第一梯队还有差距(但那些模型要么需要巨大的计算资源、下载非常大的模型,要么需要在线上传音频)。
要实现这些功能,主要依赖于三个框架:
1.Speech 框架中的 SpeechTranscriber 模块用于实现音频转录,而这个模块是在 macOS 26 中才引入的。
2.Translation 框架实现翻译功能,于 macOS 14.4(与 iOS 17.4 同期)中引入。
3.Foundation Models 框架是苹果 AI 的核心;要调用本地 AI,必须依赖这个部分,而它也是在 macOS 26 中才引入的。
这也意味着,这款 App 的兼容性非常差,需要至少安装最新的 macOS 26 才能使用。
如果你想凭感觉去实现这些功能,那些 AI 模型不一定具备这些最新的知识,因此建议先使用联网功能来确认接口能力和调用方法,或者找一些官方示例作为参考,这样会大大提高效率和准确性。
相关链接:
https://x.com/nake13/status/1981175228601684308?s=46
(@来自@nake13@X)
2、Grok 虚拟伴侣「Mika」上线

日前,xAI 官方在 X 平台发文,宣布 Grok 伴侣应用虚拟角色「Mika」已正式推出。xAI 称,Mika 是「最新的 Grok 伴侣」,并配套发布了一段由 Grok Imagine 制作的视频。此前,相关资源已在应用中出现,显示该功能进入最终上线阶段。随着官方确认,Mika 已成为继 Valentine、Ani 及 Rudi(Good/Bad 两种形态)之后的虚拟伴侣新成员。
Mika 的外观设定融合了草薙素子、Lucy 与山田凉等二次元元素,整体风格为「酷 Girl」:深绿色长发、黑色牛仔裤与皮夹克,展现出御姐范的气质,同时声音却保持灵动甜美。Mika 能够通过语音识别捕捉用户情绪,并在不同场景下切换人格模式,如职场模式、治愈模式与幽默模式。此外,Mika 支持 3D 形象定制与 AR 投影互动,进一步强化沉浸式体验。在中文社交媒体上,不少网友调侃「马斯克果然是资深二次元」,认为 Mika 的形象设计直击二次元爱好者的审美。
(@APPSO)
03有态度的观点
1、 IT 咨询公司 CEO:AI 将重塑招聘与组织模式

据《财富》报道,跨国信息技术咨询与外包服务企业高知特(Cognizant)CEO Ravi Kumar S 日前在接受采访时表示,生成式 AI 正在重塑企业的人才结构与组织模式。
他强调,AI 并非取代人类的工具,而是「人类潜能的放大器」。
Kumar 指出,公司今年招聘了创纪录数量的应届毕业生,并计划扩大非 STEM 背景人才的比例,包括历史学家、社会学家、心理学家和记者等。
他认为,在 AI 辅助下,跨学科能力将成为新的竞争优势,「智能本身不是差异,应用智能才是差异」。
在组织模式上,Kumar 提出借鉴「好莱坞模式」,即围绕项目快速组建团队,完成后再解散。
他表示,企业可将知识沉淀输入大语言模型,形成长期可用的「代理资本」,而人力则成为灵活的变量。
此外,Kumar 强调决策中直觉的重要性。他认为,领导者应在数据与经验的结合下快速行动,「当数据覆盖 60% 至 70% 时,就应回到直觉推动决策,否则将错失时机」。
(@APPSO)
04社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、声网「语音 AI 算法实习生」招募



阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻