NVIDIA 开源 Audio2Face:音频生成逼真面部动画;Gemini Live API 支持思考能力 丨日报

news/2025/9/29 13:12:25/文章来源:https://www.cnblogs.com/Agora/p/19118576

 

image

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01 有话题的技术

1、Google Gemini Live API 将支持「思考」能力

 

image

 

 

Google 发布了其「Gemini API」中「Live API」的重大更新。此次升级核心聚焦于大幅提升函数调用(function calling)的可靠性和增强对话的自然流畅度。

 

函数调用可靠性大幅提升: 新模型在识别和执行正确函数方面的准确性显著提高。内部基准测试显示,单次调用的成功率提升了 2 倍,在 5 到 10 次复杂调用场景下提升了 1.5 倍,解决了语音交互中重试机会少的核心痛点。

 

更自然的对话处理能力: 该模型能更好地处理用户中断、自然停顿以及无关的背景对话。例如,当用户与他人进行简短交谈时,「智能体」能够优雅地暂停并无缝恢复,无需额外配置。

 

即将支持「思考」能力: 将推出类似「Gemini 2.5 Flash」和「Pro」的「思考」功能。开发者可以为模型设置「思考预算」(thinkingBudget),使其在处理复杂查询时有更多时间进行深度推理,并返回思考过程的文本摘要。

 

真实世界应用验证: 早期合作伙伴 Ava(一个 AI 家庭操作系统)反馈,新模型在处理真实世界嘈杂输入时的首次通过准确率更高,显著加快了其多模态「智能体」产品的开发速度。

 

(@GoogleAIStudio@X)

 

2、科大讯飞开源文生音频模型 AudioFly

 

近期,科大讯飞开源了讯飞文生音频模型 AudioFly。AudioFly 模型可基于文本描述输入,生成 44.1kHz 采样率的高质量音频,在文本与音效的匹配度上表现优异。AudioFly 采用了潜在扩散模型(LDM)架构,经海量多元声音数据训练,支持单事件、多事件场景。

 

这里是一些 AudioFly 所生成的样例:

 

在未进行针对性微调的情况下,AudioFly 在学术数据集 AudioCaps 测试集上取得了 SOTA 指标,证明了该模型良好的推广性和鲁棒性。

 

image

 

 

AudioFly 的开源能够有效降低音效生成模型的使用门槛,开发者可以将其应用于短视频配音、有声故事生成等领域,释放更多声音创意潜力,创造出更多优质的声音内容。

 

相关链接:

 

https://modelscope.cn/models/iflytek/AudioFly

 

(@科大讯飞研究院)

 

3、NVIDIA 开源 Audio2Face 技术,音频输入生成逼真面部表情和唇部同步动画

 

image

 

 

NVIDIA 近期宣布将「Audio2Face」技术开源,这是一个利用生成式 AI 从音频输入生成逼真面部表情和唇部同步动画的工具。此举旨在降低开发门槛,让更多游戏和 3D 应用开发者能够轻松创建富有表现力、能够进行自然对话的 3D 头像,从而提升用户在游戏、虚拟客服等场景中的沉浸感。

 

  • AI 驱动的面部动画:「Audio2Face」能通过分析语音中的音素和语调等声学特征,生成高度逼真的面部动画和唇部同步,即使在实时交互场景下也能表现出色。

  • 全面开源: NVIDIA 不仅开源了「Audio2Face」模型和 SDK,还提供了训练框架,允许开发者自行微调和定制模型,以适应特定用例。

  • 跨平台集成: 已提供 Autodesk Maya 和 Unreal Engine 5 的插件,方便开发者直接在常用 3D 创作工具和游戏引擎中集成该技术。

  • 行业广泛应用: 该技术已被 Convai、Codemasters、GSC Games World、NetEase 等众多知名游戏和 AI 公司集成,应用于游戏、媒体娱乐及客户服务等领域。

 

「Audio2Face」模型和 SDK 已对公众开放,开发者可直接下载使用,并可通过 NVIDIA 开发者社区获取更多支持和资源。

 

相关链接:

 

https://developer.nvidia.com/blog/nvidia-open-sources-audio2face-animation-model/

 

(@NVIDIA Developer Blog)

02 有亮点的产品

1、微软推出 Copilot Pro 实验功能「Portraits Labs」

 

image

 

 

微软近日宣布,其正在为 Copilot Pro 用户推出一项名为 Portraits Labs 的实验性新功能。作为其中的核心部分,Copilot Portraits 已经开始向部分美国 Pro 用户在 Copilot Labs 上展示。这些「肖像」是用户未来可以进行对话的虚拟头像。

 

这些 Portraits 是由 VASA-1 技术驱动的 3D 虚拟头像,用户将能够通过语音模式与它们进行自然对话。该功能提供了 40 种 不同的肖像选择,目前仅在美国、英国和加拿大三个国家提供,且每位用户每日的使用时长限制为 20 分钟

 

相关链接:

 

https://x.com/testingcatalog/status/1970909419392348349

 

(@testingcatalog@X)

 

2、Monologue 推出语音输入工具,助力用户「3 倍速」工作

 

Monologue,一款新的语音输入工具,今日正式上线。该工具旨在通过「3 倍速」的转写能力,帮助用户将语音指令高效转化为格式化的文本,从而提升工作效率。

 

  • 智能格式化: 自动移除语 fillers、添加标点、修正拼写,并将散乱的语音内容整合成清晰的列表或段落。

  • 情境化模式: 内置及可定制模式,使语音输入能根据不同应用场景(如 Slack 消息 vs. 投资人更新)自动调整语气和格式。

  • 个性化词典: 自动学习用户独特的词汇和表达,实现更自然的语音输入体验。

  • 快捷短语: 支持保存常用短语(如链接、电话号码、感谢语),避免重复输入。

 

(@Producthunt)

03 有态度的观点

1、Sam Altman:获取 AI 将被视为一项基本人权

 

image

 

 

日前,OpenAI CEO Sam Altman 在个人博客发表题为《丰富的智能(Abundant Intelligence)》的长文,提出了未来 AI 基础设施建设的愿景。

 

Altman 表示,随着 AI 服务的快速发展,获取 AI 将成为经济发展的核心驱动力,甚至可能被视为「一项基本人权」。

 

他强调,未来几乎所有人都希望有更多 AI 为自己工作。

 

在文章中,Altman 提出了一个雄心勃勃的目标 —— 打造一座「每周能生产 1 吉瓦新 AI 基础设施的工厂」。

 

他指出,这一计划的执行将极其困难,需要在芯片、电力、建筑和机器人等多个层面进行创新,但他相信这是可能实现的。

 

Altman 还举例称,如果拥有 10 吉瓦计算力,AI 或许能够找到治愈癌症的方法、或为全球每一名学生提供个性化辅导。

 

他强调,计算力的扩展将直接决定 AI 的潜力与应用范围。

 

此外,Altman 透露,未来几个月将公布更多合作伙伴与计划细节,并在今年晚些时候介绍融资方案。

 

他认为,这将是「有史以来最酷、最重要的基础设施项目」,并希望在美国本土建设更多产能,以应对全球竞争。

 

( @APPSO)

 

image

 

image

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

image

 

 

素材来源官方媒体/网络新闻​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/921844.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

做服务的网站起名成都做网站设

你的意思是 小明和 888888这样的学号都是从数据中来的?然后要展现到前端页面中其实有很多方法:一. 直接全HTML拼接(你可能想到的方法)// 假设 有 name 和 xueID 分别代表名字和学号的变量var HTMLbankname xueID name 上学校,天天不迟到&…

德州网站开发培训网站建设产品需求文档

11月3日,2022 杭州 云栖大会上,阿里云智能总裁张建锋表示,以云为核心的新型计算体系正在形成,软件研发范式正在发生新的变革,Serverless 是其中最重要的趋势之一,阿里云将坚定推进核心产品全面 Serverless…

广州做护肤品的网站重庆宣传网站怎么做

01 pair的定义和结构 在C中&#xff0c;pair是一个模板类&#xff0c;用于表示一对值的组合&#xff0c;它位于头文件中。 pair类的定义如下: template<class T1,class T2>struct pair{T1 first;//第一个值T2 second;//第二个值// 构造函数pair();pair(const T1& X…

【数据结构】冒泡、选择、插入、希尔排序的完成

【数据结构】冒泡、选择、插入、希尔排序的完成pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &…

GPTEngineer:AI 驱动的Web应用创建平台

GPTEngineer:AI 驱动的Web应用创建平台2025-09-29 12:49 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block …

江西住房和城乡建设部网站中国建筑考试网官网首页

阿里云今年有双十一活动吗&#xff1f;不好说&#xff0c;因为去年就没有。阿里云双11优惠活动是一项大型的促销活动&#xff0c;每年都有&#xff0c;但是去年没有双十一活动&#xff0c;不知道今年2023年阿里云是否有双11优惠活动。但是阿里云百科aliyunbaike.com猜想&#x…

C++----红黑树 - 详解

C++----红黑树 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "…

选对强大的技术底座:一篇文章讲透虚拟机与容器核心差异

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

mp4/图片转gif

mp4转gif ffmpeg -f gif -i name.gif output.mp4 ffmpeg -i output.mp4 -vf palettegen palette.png ffmpeg -i output.mp4 -i palette.png -lavfi paletteuse name.gif基于png图片生成调色板 ffpmpeg -i xx_Wait.gif …

详细介绍:09.【Linux系统编程】“文件“读写操作,Linux下一切皆文件!

详细介绍:09.【Linux系统编程】“文件“读写操作,Linux下一切皆文件!pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: …

数据类型-元组

元组(不可变类型):info = tuple()#空元组  info = (1,2,3,"guohan") 公共功能:1.索引:info[0] = 12.切片:info [0:3] = (1,2,3)3.步长:info [::2] = (1,3)4.for循环:for i in info:5.len: len(in…

深入解析:招聘:解决方案架构师 - 中国北京(混合办公)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

个人用云计算学习笔记 --14( Linux 逻辑卷管理、Linux 交换空间管理) - 教程

个人用云计算学习笔记 --14( Linux 逻辑卷管理、Linux 交换空间管理) - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fa…

除了网页外 网站还需要东莞有哪些好企业

我一个朋友的网站&#xff0c;5月份时候被攻击了&#xff0c;然后他找我帮忙看看&#xff0c;我看他的网站、网上查资料&#xff0c;不看不知道&#xff0c;一看吓一跳&#xff0c;最近几年这网络安全形势真是不容乐观&#xff0c;在网上查了一下资料&#xff0c;1、中国信息通…

自然灾害vr学习机:山体滑坡+泥石流避险+洪涝逃生+地震逃生+台风避险+雷电避险 - 详解

自然灾害vr学习机:山体滑坡+泥石流避险+洪涝逃生+地震逃生+台风避险+雷电避险 - 详解2025-09-29 12:37 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; o…

站点搭建使用socket登陆wordpress源码

它是一个全面的、企业应用开发一站式的解决方案&#xff0c;贯穿表现层、业务层、持久层。但是 Spring仍然可以和其他的框架无缝整合。 1 Spring 特点 轻量级控制反转面向切面容器框架集合 2 Spring 核心组件 3 Spring 常用模块 4 Spring 主要包 5 Spring 常用注解 bean…

小程序网站建站模板百度网址安全中心

全世界只有3.14 % 的人关注了青少年数学之旅科学是人类进步的阶梯&#xff01;在当今社会&#xff0c;科学技术的发展进步将为人类社会带来巨大的效益&#xff0c;毫不夸张的说&#xff0c;科学指引并推着着人类文明的进程。基础科学作为科学技术的理论基石&#xff0c;其重要性…

详细介绍:XXE - 实体注入(xml外部实体注入)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

【面板材料】A股上市公司增发股票及配股相关资料(1991-2024年)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

BindingList的应用与改进

在编写UI的过程中,我们通常使用ObservableCollection来监听列表的变化。然而,ObservableCollection只能在添加/移动/移除元素时通知界面,这意味着元素内部更改时,ObservableCollection是无法通知的 如果需要监听列…