WavJourney:进入音频故事情节生成世界的旅程

推荐:使用 NSDT场景编辑器快速搭建3D应用场景

若要正确查看音频生成的强大功能,请考虑以下方案。我们只需要提供一个简单的指令,描述场景和场景设置,模型就会生成一个扣人心弦的音频脚本,突出与原始指令的最高上下文相关性。

指令: 在科幻小说主题中生成音频:火星新闻报道人类向半人马座阿尔法星发送光速探测器。从新闻主播开始,然后是记者采访由联合地球和火星政府创立的建造这个探测器的组织的总工程师,最后再次以新闻主播结束。

生成的音频:https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4

为了真正了解这个奇迹的内部运作,让我们深入了解生成过程的方法和实现细节。

生成过程

下图在一个简单的流程图中总结了整个过程。

WavJourney:进入音频故事情节生成世界的旅程

端到端音频生成过程由多个子模块组成,这些子模块按顺序执行,用于完整的文本到音频模型。

音频脚本生成

WavJourney利用GPT-4模型和预定义的提示模板来生成脚本。提示模板将输出限制为简单的 JSON 格式,以后计算机程序可以轻松解析。每个脚本都有 3 种不同的音频类型,如上图所示:语音音效音乐。然后,每种音频类型都可以作为前景音频运行,也可以作为背景声音效果覆盖在其他音频上。其他属性(如内容描述、长度和字符)足以正式定义脚本生成的音频设置。

脚本解析

然后,输出脚本通过计算机程序传递,该程序解析预定义 JSON 脚本格式中的相关信息。它将每个描述和字符与预设的语音音频相关联。此过程有助于将音频生成过程分解为单独的步骤,包括文本到语音转换、音乐和声音添加。

音频生成

解析后的脚本作为 Python 程序执行。首先生成前景语音,由背景音乐和音效覆盖。对于语音生成,该模型使用预先训练的 Bark 模型和 VoiceFixer 恢复模型来提高音频质量。AudioLDM和MusicGen模型用于声音效果和音乐叠加。所有三种型号的输出组合在一起,形成最终的音频输出。

人机共创

该过程维护生成的脚本的上下文,并且可以类似于 GPT 模型进行提示。您可以使用 GPT 模型的人工反馈和聊天功能轻松修改生成的脚本。

添加特定的细节和音效再简单不过了。下面的流程图显示了添加或修改生成的脚本的特定详细信息是多么简单。

结论

音频生成模式可以改变娱乐行业的游戏规则。该过程能够生成引人入胜的叙述和故事,可用于教育和娱乐目的,自动化繁琐的画外音和视频生成过程。

有关详细理解,请在此处概述论文。该代码将很快在GitHub上提供。

原文链接:WavJourney:进入音频故事情节生成世界的旅程 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/81738.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数组和指针笔试题解析之【数组】

目录 前言: 1.一维数组: 2.字符数组 : 2.1题型一: 2.2题型二: 2.3题型三: 3.二维数组 : 前言: 1.数组名的意义: sizeof(数组名):这里的数组名表示整…

【C++STL基础入门】list的运算符重载和关于list的算法

文章目录 前言一、list运算符1.1 逻辑运算符1.2 赋值运算符 二、list相关算法2.1 查找函数总结 前言 C标准模板库(STL)是一组强大而灵活的工具,用于处理数据结构和算法。其中,std::list是STL中的一个重要容器,它实现了…

小型网络实验组网

路漫漫其修远兮,吾将上下而求索 时隔多日,没有更新,今日一写,倍感教育的乐趣。如果让我每天发无意义的文章,我宁可不发。 实验拓扑 实验要求 (1)内网主机采用DHCP分配IP地址 (2&…

4.1.9-映射应用程序体系结构

映射应用程序体系结构 IDWSTG-INFO-10 总结 为了有效地测试应用程序,并能够就如何解决所识别的任何问题提供有意义的建议,了解实际测试的内容非常重要。此外,确定是否应将特定组件视为超出测试范围可能会有所帮助。 现代 Web 应用程序的复…

记录本地Nginx发布vue项目

一、前端:vue-cli-service build 二、下载Nginx,并创建目录,放置静态文件 三、在conf目录下nginx.conf文件配置代理服务 server {listen 8787;server_name localhost;location / {root app/dist; #前端dist包地址index index.html…

Java下部笔记

目录 一.双列集合 1.Map 2.Map的遍历方式 3.可变参数 4.Collection中的默认方法 5.不可变集合(map不会) 二.Stream流 1.获取stream流 2.中间方法 3.stream流的收集操作 4.方法引用 1.引用静态方法 2.引用成员方法 3.引用构造方法 4.使用类…

Docker Volume(存储卷)

文章目录 Docker Volume(存储卷)1.什么是存储卷?2.为什么需要存储卷?3. 存储卷的分类1) 管理卷Volume方式一:Volume命令操作方式二: -v 或者--mount 指定方式三: Dockerfile 匿名卷小结Docker 卷生命周期Docker 卷共享…

Tomcat架构设计及组件详解

继Tomcat配置详解(Tomcat配置server.xml详解)Tomcat配置详解(Tomcat配置server.xml详解)_tomcat xml配置https://blog.csdn.net/imwucx/article/details/132166738文章之后,深入的学习tomcat相关知识,对Tom…

基于SSM+Vue的“魅力”繁峙宣传网站

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用Vue技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病...

全文链接:http://tecdat.cn/?p23061 这个数据集(查看文末了解数据免费获取方式)可以追溯到1988年,由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。"目标 "字段是指病人是否有心脏病。它的数值为整数,0无…

无代码和低代码平台:程序员的竞争优势

无代码和低代码平台:程序员的竞争优势 无代码和低代码平台:程序员的竞争优势摘要引言1. 了解无代码和低代码平台1.1 无代码和低代码平台的定义无代码平台低代码平台 1.2 它们如何简化应用程序开发1.3 主要的无代码和低代码工具和供应商无代码平台低代码…

matlab 13折线法数据量化编码与解码

解码 matlab 13折线法数据量化编码请查看>>链接 matlab源码: %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %sp=[0,16,32,64,128,256,512,1024]; %每段起始值 %spmin=[1,1,2,4,8,16,32,64]; %11110011--1248 c1=1 正…

32、歇后语大全API,免费好用

1、前言 歇后语大全查询API接口,这个是RollToolsApi通用系列接口的其中一个,内部包含了3个小接口,可查询歇后语信息。 查看接口完整信息:https://www.mxnzp.com/doc/detail?id36 RollToolsApi通用系列接口包含多很多免费通用的…

【八大经典排序算法】堆排序

【八大经典排序算法】堆排序 一、概述二、思路解读三、代码实现(大堆为例) 一、概述 堆排序是J.W.J. Williams于1964年提出的。他提出了一种利用堆的数据结构进行排序的算法,并将其称为堆排序。堆排序是基于选择排序的一种改进,通…

蓝牙核心规范(V5.4)10.1-BLE 入门笔记(1)

ble 规范 深入了解蓝牙LE需要熟悉相关的规格。蓝牙LE的架构、程序和协议由一项关键规范完全定义,称为蓝牙核心规范。产品如何使用蓝牙以实现互操作性由两种特殊类型称为配置文件和服务的规范集合所涵盖。图1展示了BLE规范类型及其相互关系。 1.1 蓝牙核心规范 蓝牙核心规范是…

代码随想录二刷day32

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、力扣122. 买卖股票的最佳时机 II二、力扣55. 跳跃游戏三、力扣45. 跳跃游戏 II 前言 一、力扣122. 买卖股票的最佳时机 II class Solution {public int ma…

SpringBoot整合Easy-ES实现对ES操作

请确保已有可用的ES&#xff0c;若没有&#xff0c;请移步&#xff1a;Docker安装部署ElasticSearch&#xff08;ES&#xff09; 新建SpringBoot项目 这里是用的springboot版本是2.6.0 引入依赖 <!-- 排除springboot中内置的es依赖,以防和easy-es中的依赖冲突--><…

Redis五大基本数据类型

1、字符串类型 字符串类型相当于 java 中的 String 类型。Redis 中的 String 类型以二进制方式存储&#xff0c;不会做任何的编码转换&#xff0c;因此不仅仅可以存储文本数据、整数、普通的字符串、JSON、xml文件&#xff0c;还可以存储图片、视频、音频。String 存储的种类虽…

插槽指的是什么?插槽的基础用法体验

什么是插槽 插槽(Slot)是 vue 为组件的封装者提供的能力。允许开发者在封装组件时&#xff0c;把不确定的、希望由用户指定的部分定义为插槽。 <template><p>这是MyCom1组件的第1个p标签</p><&#xff01;--通过slot标签&#xff0c;为用户预留内容占位符…

ubuntu文件上有锁

1 文件上有锁&#xff0c;如何解锁&#xff1f; sudo chmod 777 filenamefilename要替换成你要解锁的文件名称 2 文件夹上有锁&#xff0c;如何解锁&#xff1f; sudo chown -R username filenameusername就是你Ubuntu系统安装的时候取得名字&#xff0c;filename就是被锁文…