Unity3D开发AI桌面精灵/宠物系列 【六】 人物模型 语音口型同步 LipSync 、梅尔频谱MFCC技术、支持中英文自定义编辑- 基于 C# 语言开发

Unity3D开发AI桌面精灵/宠物系列 【六】 人物模型 语音口型同步 LipSync 、梅尔频谱MFCC技术 C# 语言开发


该系列主要介绍怎么制作AI桌面宠物的流程,我会从项目开始创建初期到最终可以和AI宠物进行交互为止,项目已经开发完成,我会仔细梳理一下流程,分步讲解。 这篇文章主要讲关于人物模型 语音口型同步技术。


提示:内容纯个人编写,欢迎评论点赞,来指正我。

文章目录

  • Unity3D开发AI桌面精灵/宠物系列 【六】 人物模型 语音口型同步 LipSync 、梅尔频谱MFCC技术 C# 语言开发
  • 前言
  • 一、语音口型同步LipSync技术概述
          • ①技术原理
          • ②实现方法
          • ③应用场景
          • ④技术挑战
  • 二、Unity开发准备阶段
    • 1.Unity平台
    • 2.插件:下载地址
    • 3.示例:中文
  • 三、uLipSync使用方法
    • 1. 模型重构
    • 2. 导入插件
    • 3. 添加LipSync组件
    • 4. 组件使用详解
          • 1. uLipsyncBlendShape 组件
          • 2. uLipsync 组件
          • 2. MFCC 技术
          • 3. MFCC 频谱中文数据提供
          • 4. 运行查看效果,人物口型和声音同步,并实时变化,中英文的训练是一样的。
    • 然后就,大功告成了!!!
  • 四. 完结
  • 总结


前言

本篇内容主要讲Unity开发桌面宠物的大模型交互功能,大家感兴趣也可以了解一下这个开发方向,目前还是挺有前景的。

下面让我们出发吧 ------------>----------------->


一、语音口型同步LipSync技术概述

人物语音口型同步(Lip Sync)是一种技术,用于确保动画或虚拟人物的口型与配音或语音内容精确匹配。这种技术广泛应用于动画电影、视频游戏、虚拟现实、增强现实以及实时视频会议等领域,以增强角色的真实感和沉浸感。

①技术原理

人物语音口型同步通常通过分析语音信号的音素(Phoneme)来实现。音素是语言中最小的语音单位,每个音素对应特定的口型。系统通过语音识别技术将语音分解为音素序列,然后根据音素驱动角色的面部模型,生成相应的口型动画。

②实现方法

基于规则的方法:通过预定义的规则将音素映射到特定的口型。这种方法需要手动调整每个音素对应的口型,适用于简单的场景,但缺乏灵活性。

基于机器学习的方法:利用深度学习模型(如卷积神经网络或循环神经网络)自动学习语音与口型之间的映射关系。这种方法可以处理更复杂的语音和口型变化,适用于高质量的口型同步需求。

实时口型同步:在实时应用中(如视频会议或虚拟主播),系统需要快速处理语音并生成相应的口型动画。这通常需要高效的算法和硬件支持,以确保低延迟和高精度。

③应用场景

动画制作:在动画电影和电视剧中,人物语音口型同步用于确保角色的口型与配音完美匹配,提升观众的观影体验。

游戏开发:在视频游戏中,口型同步技术用于增强角色的互动性和真实感,使玩家更沉浸于游戏世界。

虚拟现实和增强现实:在VR和AR应用中,口型同步技术用于创建逼真的虚拟人物,提升用户的沉浸感。

实时视频会议:在视频会议中,口型同步技术可以用于虚拟形象或增强现实效果,使远程沟通更加自然和生动。

④技术挑战

多语言支持:不同语言的音素和口型差异较大,需要针对每种语言进行优化。

情感表达:除了口型,面部表情和情感表达也是重要因素,需要综合处理。

实时性:在实时应用中,系统需要在极短的时间内完成语音分析和口型生成,对算法和硬件性能要求较高。

人物语音口型同步技术的发展不断推动着动画、游戏和虚拟现实等领域的进步,为用户带来更加真实和沉浸的体验。
在这里插入图片描述

二、Unity开发准备阶段

1.Unity平台

  • 该系列全部使用Unity2021.3.44开发;
  • 该系列前后文章存在关联,不懂的可以看前面文章;
  • 该系列完成之后我会上传源码工程,着急的小伙伴可以自己写框架,我就先编写各模块的独立功能。

2.插件:下载地址

  • uLipSync For Unity

3.示例:中文

  • 元音
    a:发音时,口张大,舌尖抵住下齿背,舌面中部稍微隆起,声带振动。如“啊”。
    o:发音时,口半开,舌尖抵住下齿背,舌面后部隆起,声带振动。如“哦”。
    e:发音时,口半开,舌尖抵住下齿背,舌面后部稍微隆起,声带振动。如“鹅”。
    i:发音时,口微开,舌尖抵住下齿背,舌面前部隆起,声带振动。如“衣”。
    u:发音时,口微开,舌尖抵住下齿背,舌面后部隆起,声带振动。如“乌”。
    ü:发音时,口微开,舌尖抵住下齿背,舌面前部隆起,声带振动。如“迂”。
  • 辅音
    b:发音时,双唇紧闭,然后突然张开,气流冲出,声带不振动。如“玻”。
    p:发音时,双唇紧闭,然后突然张开,气流冲出,声带不振动。如“坡”。
    m:发音时,双唇紧闭,气流从鼻腔流出,声带振动。如“摸”。
    f:发音时,上齿和下唇接触,气流从唇齿间摩擦而出,声带不振动。如“佛”。
    d:发音时,舌尖抵住上齿龈,气流冲出,声带不振动。如“的”。
    t:发音时,舌尖抵住上齿龈,气流冲出,声带不振动。如“特”。
    n:发音时,舌尖抵住上齿龈,气流从鼻腔流出,声带振动。如“呢”。
    l:发音时,舌尖抵住上齿龈,气流从舌两侧流出,声带振动。如“勒”。
    g:发音时,舌根抵住软腭,气流冲出,声带振动。如“哥”。
    k:发音时,舌根抵住软腭,气流冲出,声带不振动。如“科”。
    h:发音时,舌根靠近软腭,气流从舌根和软腭之间摩擦而出,声带不振动。如“喝”。
    j:发音时,舌面前部抵住硬腭,气流从舌面和硬腭之间摩擦而出,声带不振动。如“基”。
    q:发音时,舌面前部抵住硬腭,气流从舌面和硬腭之间摩擦而出,声带不振动。如“七”。
    x:发音时,舌面前部靠近硬腭,气流从舌面和硬腭之间摩擦而出,声带不振动。如“希”。
    zh:发音时,舌尖抵住硬腭前部,气流从舌尖和硬腭之间摩擦而出,声带不振动。如“知”。
    ch:发音时,舌尖抵住硬腭前部,气流从舌尖和硬腭之间摩擦而出,声带不振动。如“吃”。
    sh:发音时,舌尖靠近硬腭前部,气流从舌尖和硬腭之间摩擦而出,声带不振动。如“诗”。
    r:发音时,舌尖靠近硬腭前部,气流从舌尖和硬腭之间摩擦而出,声带振动。如“日”。
    z:发音时,舌尖抵住上齿龈,气流从舌尖和上齿龈之间摩擦而出,声带不振动。如“资”。
    c:发音时,舌尖抵住上齿龈,气流从舌尖和上齿龈之间摩擦而出,声带不振动。如“雌”。
    s:发音时,舌尖靠近上齿龈,气流从舌尖和上齿龈之间摩擦而出,声带不振动。如“思”。
  • 复韵母
    ai:发音时,先发“a”,然后舌尖抵住下齿背,舌面前部稍微隆起,向“i”滑动,声音由低到高。如“爱”。
    ei:发音时,先发“e”,然后舌尖抵住上齿龈,舌面前部稍微隆起,向“i”滑动,声音由低到高。如“飞”。
    ui:发音时,先发“u”,然后舌尖抵住下齿背,舌面前部稍微隆起,向“i”滑动,声音由低到高。如“归”。
    ao:发音时,先发“a”,然后舌尖抵住下齿背,舌面后部稍微隆起,向“o”滑动,声音由低到高。如“高”。
    ou:发音时,先发“o”,然后舌尖抵住下齿背,舌面后部稍微隆起,向“u”滑动,声音由低到高。如“狗”。
    iu:发音时,先发“i”,然后舌尖抵住下齿背,舌面前部稍微隆起,向“u”滑动,声音由低到高。如“游”。
    ie:发音时,先发“i”,然后舌尖抵住下齿背,舌面前部稍微隆起,向“e”滑动,声音由低到高。如“爷”。
    üe:发音时,先发“ü”,然后舌尖抵住下齿背,舌面前部稍微隆起,向“e”滑动,声音由低到高。如“月”。
    er:发音时,舌尖卷起,抵住硬腭,舌面中部稍微隆起,发出“er”的音。如“儿”。
  • 鼻韵母
    an:发音时,先发“a”,然后舌尖抵住上齿龈,舌面中部稍微隆起,发出“n”的音。如“安”。
    en:发音时,先发“e”,然后舌尖抵住上齿龈,舌面中部稍微隆起,发出“n”的音。如“恩”。
    in:发音时,先发“i”,然后舌尖抵住上齿龈,舌面中部稍微隆起,发出“n”的音。如“因”。
    un:发音时,先发“u”,然后舌尖抵住上齿龈,舌面中部稍微隆起,发出“n”的音。如“温”。
    ün:发音时,先发“ü”,然后舌尖抵住上齿龈,舌面中部稍微隆起,发出“n”的音。如“云”。
    ang:发音时,先发“a”,然后舌尖抵住上齿龈,舌面后部稍微隆起,发出“ng”的音。如“昂”。
    eng:发音时,先发“e”,然后舌尖抵住上齿龈,舌面后部稍微隆起,发出“ng”的音。如“灯”。
    ing:发音时,先发“i”,然后舌尖抵住上齿龈,舌面后部稍微隆起,发出“ng”的音。如“丁”。
    ong:发音时,先发“o”,然后舌尖抵住上齿龈,舌面后部稍微隆起,发出“ng”的音。如“红”

  • 上述操作很简单
  • 重点来了

三、uLipSync使用方法

1. 模型重构

  • 重构模型 BlendShape组件
    在这里插入图片描述
  • 中文加入以下组件:
    在这里插入图片描述
  • 英文加入以下组件:

在这里插入图片描述

  • 以上组件均为美工制作模型时添加,后续要用到,也可以用基础自带的52个BlendShape组件,只不过效果不是很好。

2. 导入插件

在这里插入图片描述

在这里插入图片描述

  • 导入成功

3. 添加LipSync组件

在这里插入图片描述

  • 在模型根节点添加这两个组件。

4. 组件使用详解

1. uLipsyncBlendShape 组件

在这里插入图片描述

  • ① 选择你的模型上带有BlendShape组件的物体
  • ② 调节口型变化的平滑度和最大最小值,根据需求自行调节
  • ③ BlendShape全部组件的值大小,默认是100,根据需求调整幅度
  • ④ 绑定你的美术资源上添加的BlendShape组件对应的某个音素,并自己命名区分
2. uLipsync 组件

在这里插入图片描述

  • ① 选择你的声音来源,新建个AudioSource拖进来
  • ② 选择当前物体,并选择OnLipSyncUpdate方法,表示实时运行检测
  • ③ 可以自己导入保存好的数据,也可以新建,接下来重点讲MFCC
  • ④ 调整数据大小和采样率的,默认我这种就可以
  • ⑤ 可以将数据保存到本地,其他资源可以直接使用,也可以导入其他数据
2. MFCC 技术

在这里插入图片描述

  • ① 填入上个阶段自己命名的音节,
  • ② 录制的频谱

那么怎么录制频谱呢?

  • ① 首先网上找到 a、o、e、i、u、v等音素的读音片段,可以是mp4或者其他格式都行,我是在汉语拼音网上找的,读音种类的数据越多越精准。
  • ② 导入到Unity中

接下来就是录制了!

  • ① 首先运行Unity ,你会发现多了个按钮 Calib
  • ② 第二步,在音频组件上播放一个音素,循环播放
    在这里插入图片描述
  • ③ 第三步,点击Calib 按钮,长按两三秒,看到MFCC上有稳定均匀的频谱写入就代表成功了。
  • ④ 第四步,重复前面的操作,将所有音素依次录入
  • ⑤ 可以点击保存,下次可以直接使用
3. MFCC 频谱中文数据提供

下面是我本人训练的MFCC数据的Json文件可以导入直接用:

在这里插入图片描述
训练不好的小伙伴私我,这个文件数据太大,不知道以什么格式可以上传。

4. 运行查看效果,人物口型和声音同步,并实时变化,中英文的训练是一样的。

然后就,大功告成了!!!

  • 该系列基本功能差不多就完成了,就完结了,接下来我会将这些功能搭一下框架,或者把其他平台的接入也展示出来。后续看计划~

四. 完结

  • 大家可以从第一节开始学习,完整流程基本已经实现,现在可以实现对话了。
  • 下一期更新暂定:
    ① 更新框架
    ② 其他平台的功能接入
    二选一哦!
  • 评论告诉我,下一期更新什么

在这里插入图片描述
比心啦 ❥(^_-)

在这里插入图片描述

总结

  • 提示: 大家根据需求来做功能,后续继续其他功能啦,不懂的快喊我。
  • 大家可以在评论区讨论其他系列下一期出什么内容,这个系列会继续更新的
  • 点赞收藏加关注哦~ 蟹蟹

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/906141.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MoonBit正式入驻GitCode!AI时代的编程语言新星,开启高性能开发新纪元

在AI与编程语言深度交融的今天,开发者们正见证一场技术生产力的革命。由IDEA研究院基础软件中心倾力打造的MoonBit(月兔)编程语言,自2023年横空出世以来,凭借高性能、低延迟、轻量化的特性,迅速成为全球开发…

LLMs:《POE报告:2025年春季人工智能模型使用趋势》解读

LLMs:《POE报告:2025年春季人工智能模型使用趋势》解读 导读:2025年5月13日,该报告基于 Poe 平台的用户数据,分析了 2025 年春季人工智能模型的使用趋势。报告指出,人工智能格局快速演变,通用文…

STM32 之网口资源

1 网口资源介绍 STM32F407 是 STMicroelectronics 推出的高性能 ARM Cortex-M4 微控制器,具备多种外设接口,其中包括一个 Ethernet MAC 控制器(带 IEEE 1588 支持)。这意味着你可以使用 STM32F407 实现网络通信功能(通…

Almalinux中出现ens33 ethernet 未托管 -- lo loopback 未托管 --如何处理:

解决 AlmaLinux 中网络接口 ens33 和 lo 显示为“未托管”的问题 当 AlmaLinux 系统中的网络接口(如 ens33 和 lo)显示为“未托管”时,这意味着这些接口没有被 NetworkManager 正常管理。以下是详细的分析和解决方案: 1. 检查 N…

数据库中关于查询选课问题的解法

前言 今天上午起来复习了老师上课讲的选课问题。我总结了三个解法以及一点注意事项。 选课问题介绍 简单来说就是查询某某同学没有选或者选了什么课。然后查询出该同学的姓名,学号,课程号,课程名之类的。 sql文件我上传了。大家可以尝试练…

Qt图表库推荐指南与分析

目录 一、核心图表库横向对比1. Qt Charts2. QCustomPlot3. QWT (Qt Widgets for Technical Applications)4. KD Chart 二、性能与功能对比矩阵三、选型策略与组合方案1. 通用型需求:2. 技术型场景:3. 企业级开发: 四、未来趋势与避坑指南1. …

LangGraph 2 - 智能体开发、流式传输、模型调用、工具、MCP、上下文、内存、人机协同、部署、UI

文章目录 使用LangGraph进行智能体开发什么是智能体?核心特性高层构建模块包生态系统 运行代理基础用法输入与输出输入格式使用自定义 Agent 状态 输出格式流式输出最大迭代次数其他资源 流式传输代理进度监控LLM 令牌工具更新流式多模态传输禁用流式传输其他资源 L…

Android同屏采集并推送RTMP和启动轻量级RTSP服务技术实践

随着视频直播需求的不断提升,如何实现高效的实时视频采集和推流,成为了开发者们关注的重点。本文将结合大牛直播SDK,介绍如何在 Android 平台实现 同屏采集、推送 RTMP 流,以及如何启动轻量级 RTSP 服务,让开发者快速搭…

如何自定义 Spring MVC 的配置?

我们可以通过实现 WebMvcConfigurer 接口来自定义 Spring MVC (尤其是在 Spring Boot 环境中) 的配置。 以下是通过实现 WebMvcConfigurer 接口的配置方法: 核心:创建一个 Configuration 类并实现 WebMvcConfigurer import org.springframework.conte…

如何提升新加坡SAP实施成功率?解答中企出海的“税务合规密码” | 工博科技SAP金牌服务商

目录 中新双边经贸合作概况 ​编辑 新加坡数字化实施核心挑战 一、财税合规体系适配 税务申报差异 会计准则协同 二、人力资源合规管理 薪酬体系配置 数据安全规范 企业实施建议方案 一、系统建设策略 选择具备以下资质的实施服务商: 构建标准化功能模块…

人工智能视角下的安全:可视化如何塑造恶意软件检测

摘要 恶意软件是一种持续存在的网络安全威胁,它越来越多地通过复杂的攻击向量,瞄准互连的数字系统,如桌面、移动和物联网平台。通过利用这些漏洞,攻击者会损害现代数字生态系统的完整性和弹性。为了应对这一风险,安全…

游戏引擎学习第293天:移动Familiars

回顾并为今天的内容定下基调 我们正在做一款完整的游戏,今天的重点是“移动模式”的正式化处理。目前虽然移动机制大致能运作,但写法相对粗糙,不够严谨,我们希望将其清理得更规范,更可靠一点。 目前脑逻辑&#xff0…

golang -- 如何让main goroutine等一等

目录 引言一、sync.WaitGroup二、channel创建channle操作缓冲多返回值模式单向通道 引言 在不做修饰的程序中,代码是串行执行的 串行、并发与并行串行:事物按照一定的发展顺序并发:同一时间段执行多个任务(一边吃饭一边看电视&am…

第31讲 循环缓冲区与命令解析

串口在持续接收数据时容易发生数据黏包(先接收的数据尚未被处理,后面的数据已经将内存覆盖)的情况,循环缓冲区的本质就是将串口接受到的数据马上拷贝到另外一块内存之中。为了避免新来的数据覆盖掉尚未处理的数据,一方…

UE 材质基础 第一天

课程:虚幻引擎【UE5】材质宝典【初学者材质基础入门系列】-北冥没有鱼啊_-稍后再看-哔哩哔哩视频 随便记录一些 黑色是0到负无穷,白色是1到无穷 各向异性 有点类似于高光,可以配合切线来使用,R G B 相当于 X Y Z轴,切…

编译原理--期末复习

本文是我学习以下博主视频所作的笔记,写的不够清晰,建议大家直接去看这些博主的视频,他/她们讲得非常好: 基础知识概念: 1.【【编译原理】期末复习 零基础自学】,资料 2.【编译原理—混子速成期末保过】&…

【DeepSeek论文精读】11. 洞察 DeepSeek-V3:扩展挑战和对 AI 架构硬件的思考

欢迎关注[【AIGC论文精读】](https://blog.csdn.net/youcans/category_12321605.html)原创作品 【DeepSeek论文精读】1. 从 DeepSeek LLM 到 DeepSeek R1 【DeepSeek论文精读】7. DeepSeek 的发展历程与关键技术 【DeepSeek论文精读】11. 洞察 DeepSeek-V3&#xff…

宝塔面板部署前后端项目SpringBoot+Vue2

这篇博客主要用来记录宝塔部署前端后端项目的过程。因为宝塔部署有点麻烦,至少在我看来挺麻烦的。我还是喜欢原始的ssh连接服务器进行操作。但是公司有项目用到了宝塔,没办法啊,只能摸索记录一下。 我们需要提前准备好后端项目的jar包和前端项…

电机试验平台:创新科技推动电动机研究发展

电机试验平台是电机制造和研发过程中不可或缺的重要设备,其功能涵盖了电机性能测试、电机寿命测试、电机质量评估等多个方面。随着科技的不断发展和电机应用领域的日益扩大,对电机试验平台的要求也越来越高。本文将从现代化电机试验平台的设计与应用两个…

LangGraph 7 - Platform - Agentic RAG、监督、SQL代理、追踪、私密对话、认证、RemoteGraph、LangSmith

文章目录 代理式检索增强生成(Agentic RAG)安装 1、预处理文档2、创建检索器工具3、生成查询4、文档分级5、问题重写6、生成答案7、构建流程图8、运行智能RAG代理 多智能体监督系统安装配置1、创建工作代理研究代理数学代理工具 2、使用 langgraph-super…