精通Veo 3提示语:生成高质量AI视频与音频的实用指南

如何为Veo 3撰写提示语以获得最佳效果

某中心推出的Veo 3可以根据文本提示生成带有音频的视频。音频内容可以是对话、画外音、音效和音乐。

首先了解基础知识。精心设计的提示语是生成优质视频的关键。在提示语中用平实的语言描述得越具体,Veo 3就越容易理解并生成你想要的视频。

尝试在提示语中包含以下视觉元素:

  • 主体:场景中是谁或是什么——人物、动物、物体或风景。
  • 背景:主体在哪里?室内?城市街道?森林?
  • 动作:你的主体在走路、跳跃、转头吗?
  • 风格:你追求视觉美学效果(电影感、动画、定格动画等)。
  • 摄像机运动:描述摄像机如何移动:航拍、平视、俯拍或低角度。
  • 构图:镜头如何取景:广角镜头、特写等。
  • 氛围:情绪和灯光。你可以说“暖色调”、“蓝光”或“夜晚”。

你还需要包含音频元素,下文将更详细地介绍。

以下是一个基本提示语与详细提示语的示例对比:

  • 基本提示:一个男人接起一台转盘电话
  • 详细提示:一个摇晃的滑动变焦镜头从模糊的远景拉近到一个电影感的特写:一个绝望的男人,穿着破旧的绿色风衣,从一面粗糙的砖墙上拿起一台转盘电话,笼罩在一块绿色霓虹招牌诡异的光芒中。变焦揭示了他脸上刻画的紧张和绝望,他挣扎着在电话中说话。浅景深聚焦在他紧锁的眉头和黑色的转盘电话上,将背景模糊成一片霓虹色彩和模糊的阴影,营造出一种紧迫感和孤立感。

第二个提示语包含了结构性元素,以引导Veo 3朝着我们试图创建的场景发展。

你的浏览器不支持视频标签。
基本提示生成视频
你的浏览器不支持视频标签。
详细提示生成视频

每次更改你的提示语

如果你熟悉像Midjourney或Flux这样的模型,你会知道运行相同的提示语几次(即使用不同的种子)会得到相当程度的变化。

Veo 3则不同。对于相同的提示语,即使是相当简单的提示,Veo 3也会输出非常相似的结果。你可能会看到相同长相的人穿着相同的衣服,出现在相似的地方。如果你生成的输出有轻微错误,比如连贯性或音频故障,这非常有用——你可以运行不同的种子来获得你想要的结果。但如果你处于探索模式,希望看到各种可能性,那么多次运行相同的提示语是在浪费资金。

在下面的示例中,我们用不同的种子运行了两次提示语“一个女人在笑”。注意她看起来一模一样,穿着相同的衣服,以相同的方式笑,房间也一样,她甚至戴着相同的耳环。一个模型能如此一致是不寻常的。

你的浏览器不支持视频标签。
第一个视频
你的浏览器不支持视频标签。</视频>
第二个视频

如果你还不确定自己想要什么,可以从几个大体不同的提示语开始。如果你知道想要某些元素,那么就对那些元素进行具体描述。

在这个视频中,我们可以明显做的是开始尝试描述:

  • 女人的外貌(发色、发型、肤色)
  • 她的穿着
  • 她在哪里
  • 她如何笑
  • 她为什么笑

以下是几个例子:

  • 一个女人长时间大声地笑,她在办公室会议中,事后感到尴尬。
  • 一个女人安静地笑,她在家看电视节目。

角色一致性

通常,在使用没有起始帧或场景成分的视频模型时,角色一致性很难保持。这些功能即将在Veo 3中推出。

与此同时,由于相似的提示语会产生相似的角色,如果你在多次生成中保持角色详细提示描述的一致性,通常会得到一个长相相同的人。这意味着你可以保留一个角色描述列表,并在不同的提示语中逐字重复它们:

John,一个40多岁的男人,棕色短发,穿着蓝色夹克和眼镜,看起来若有所思。

这些描述越独特和具体,Veo 3在单独生成的场景之间保持视觉连续性的效果就越好。创建具有确切措辞的角色参考表以确保一致性。

你的浏览器不支持视频标签。
John视频示例1
你的浏览器不支持视频标签。
John视频示例2

提示音频

由于Veo 3会为每个视频生成音频,你也需要为你想要听到的音频进行提示。考虑以下元素:

  • 人物在说什么(对话)
  • 场景的环境噪音(繁忙街道、繁忙办公室、繁忙咖啡馆等的声音)
  • 场景外的音效或噪音(如电话铃声)
  • 场景可能需要的任何音乐(紧张的电影配乐、欢快的流行歌曲等)。

提示对话并避免字幕

你用Veo 3创建的角色可以非常生动。他们会说话、讲笑话、打手势,有时还能表演。但如果你想让他们说话,你需要进行提示。

你可以用两种不同的方式提示对话:

  • 明确地:“一个男人说:我的名字是Ben”
  • 隐含地:“一个男人告诉我们他的名字”

这两种方式都会生成一个男人说话的视频,第一种会使用你要求的确切词语,第二种会让模型决定如何表达,在这种情况下,模型会为你决定一个名字。

编写你自己的对话

如果你明确要表达的内容,尽量保持对话简短。内容应该能在约8秒内说完。
如果你试图塞入太多内容,最终可能会导致角色说话速度过快。如果你要求他们说的太少,可能会得到尴尬的沉默或角色说出无意义的AI胡言乱语(如下面的第二个例子)。没有明确的指导,模型将无法编造它需要的所有词语。

你的浏览器不支持视频标签。
对话过长示例
你的浏览器不支持视频标签。
对话过短示例

让Veo 3编写对话脚本

如果你不擅长写对话,隐含的对话提示会有所帮助。你也可以转录你喜欢的输出,以便在以后的提示中使用。
在这里,我们让Veo 3创建一个单口喜剧演员在音乐节上讲笑话的视频,首先我们让Veo 3决定笑话内容。第二个视频我们让Veo 3尝试讲出我们在提示语中放入的笑话。

你的浏览器不支持视频标签。
隐含笑话提示
你的浏览器不支持视频标签。
明确笑话提示

你可以尝试的一些提示语,看看Veo 3在对话方面的多样性:

  • 一个单口喜剧演员讲一个笑话
  • 两个人讨论一部电影
  • 一个男人在电话里争吵
  • 一个女人讲述她的生活故事

正确发音

有时你会发现模型发音不正确。处理这个问题最简单的方法是按发音拼写单词。在开头的例子中,我们的播客主持人说:

Read on to get fofr and Shridar’s guidance on making videos

但为了得到我们名字的正确发音,我们不得不将提示语改为:

Read on to get foh-fur’s and Shreedar’s guidance on making videos

谁说了什么

当你提示多个角色之间的对话时,有时会发现Veo 3会混淆谁说了什么。当角色描述相似,并且对Veo 3来说哪个角色是哪个模糊不清时,这种情况很常见。
尽量在你的提示语中明确谁在说话:

  • 穿粉色衣服的女人说:但我才是穿粉色的那个人
  • 戴眼镜的男人回答:不,我才是戴眼镜的那个人

避免输出中出现字幕

Veo 3肯定是在大量带有硬编码字幕的视频上训练的,因为在输出中经常看到拼写错误和不正确的字幕。它们经常毁掉一次生成,但有几种简单的方法可以避免它们:

  1. 将你想听到的说话内容放在冒号后面,例如:“一个男人说:我的名字是Ben”,而不是放在引号里,例如:“一个男人说:‘我的名字是Ben’”。
  2. 在提示语中加入“(无字幕)”,否定性指令在Veo 3提示语中效果很好。
  3. 如果其他方法都失败了,不断重复说“不要字幕。不要字幕!”。

错误的背景音频(或不需要的现场演播室观众案例)

如果你没有在视频中定义你想听到的背景音频,那么Veo 3需要自己推断,通常这没问题,但有时会出错。现场演播室观众是一种常见的幻觉。有时这是你想要的,比如虚假的情景喜剧。但通常额外的笑声与场景不匹配。Veo 3甚至在制作上面的例子时也这样做过,以下是一个不合适的演播室观众毁掉一次生成的例子:

你的浏览器不支持视频标签。
不需要的演播室观众背景笑声示例

避免这种情况最简单的方法是明确提示你期望听到的音频。在本例中,我们通过添加“远处乐队的声音、嘈杂的人群、繁忙节日场地的环境背景”来修正生成,以获得输出中正确的感觉。

提示音乐

就像视频的其他部分一样,如果你想要场景中有音乐,你需要在提示语中包含它。
同样,你可以明确描述你想听到的音乐的类型、风格和情绪。或者你可以更模糊一些,让Veo 3决定。

风格

开箱即用的Veo 3通常会生成看起来制作精良的实景视频,比如流畅的专业演示、商业广告或音乐视频。
如果你想让它偏离这种风格,你需要在提示语中包含一个风格。以下是Veo 3知道如何生成的一些风格示例,提示语是:

以[风格名称]风格:一个留着胡子的男人穿着法兰绒衬衫和破旧的牛仔裤,盘腿坐在闪烁的篝火旁,琥珀色的火光在安静森林空地上撒满松针的地面上投下柔和、舞动的阴影。在他对面,就在火光边缘之外,站着一只巨大的灰熊,平静而静止,它的皮毛映照着温暖的光芒,眼睛反射着火焰,带着诡异的智慧。两人握手,就像老朋友一样。

你会注意到,不仅视频的外观发生了变化,角色移动和互动的方式也发生了变化。
在每一个示例中,音频保持非常相似,我们没有对音频进行不同的提示,它在不同风格之间变化不大。

你的浏览器不支持视频标签。
原始风格
你的浏览器不支持视频标签。
乐高风格
你的浏览器不支持视频标签。
黏土动画风格
你的浏览器不支持视频标签。
南方公园风格
你的浏览器不支持视频标签。
皮克斯动画风格
你的浏览器不支持视频标签。
8位复古风格
你的浏览器不支持视频标签。
图画小说风格
你的浏览器不支持视频标签。
折纸风格
你的浏览器不支持视频标签。
辛普森一家风格
你的浏览器不支持视频标签。
蓝图风格
你的浏览器不支持视频标签。
动漫风格
你的浏览器不支持视频标签。
大理石风格

摄像机运动

正如你所料,就像其他视频模型一样,Veo 3对常见的摄像机运动提示反应良好。使用以下这些术语,你可以控制视频中的动作:

  • 平视
  • 高角度
  • 虫视
  • 推拉镜头
  • 变焦镜头
  • 摇摄镜头
  • 跟踪镜头

你的浏览器不支持视频标签。
变焦推进
你的浏览器不支持视频标签。
变焦拉出
你的浏览器不支持视频标签。
左右摇摄
你的浏览器不支持视频标签。
推拉镜头

自拍风格视频

Veo 3在制作看起来真实的自拍视频方面出奇地好。发现某些短语似乎能持续解锁这种行为。
以“一段自拍视频,内容是…”开头比仅仅描述一个拿着相机的人效果要好得多。
让手臂可见是保持真实感的关键。大猩猩的例子很好地展示了这一点:“将相机举在一臂远的地方。他长长的、有力的手臂在画面中清晰可见。”正是这一点让它看起来像真正的自拍,而不是特写镜头。
自然的眼神移动也有很大帮助。东京的例子展示了这一点:“偶尔看向相机,然后转身指向有趣的摊位。”这种自然的扫视行为比直接盯着相机效果更好。

以下是两个展示其工作原理的例子:

  1. 一段自拍视频,一位旅行博主正在探索东京繁华的街头市场。她穿着一件复古牛仔夹克,眼中充满兴奋。午后的阳光在 vendor 摊位之间创造出美丽的阴影。她一边说话一边品尝不同的街头小吃,偶尔看向相机,然后转身指向有趣的摊位。图像略有颗粒感,看起来非常像胶片。她带着英国口音说:“好吧,你来东京一定要试试这个地方。这里的章鱼烧绝对令人难以置信,摊主刚刚告诉我这是他家三代传承的手艺。”她以竖起大拇指结束。

  2. 一个手持自拍风格的镜头,从一只在茂密丛林中的大猩猩的视角拍摄。一只巨大的银背大猩猩将相机举在一臂远的地方。他长长的、有力的手臂在画面中清晰可见,他的脸被完美地框住。大猩猩说:“我只是在测试这个功能是否真的有效,我稍后会在TikTok上发布它,基本上感觉挺可爱的可能稍后删除”(嘴唇在动,好像在说话)

你的浏览器不支持视频标签。
东京旅行博主自拍
你的浏览器不支持视频标签。
大猩猩自拍

东京例子还表明:添加“图像略有颗粒感,看起来非常像胶片”似乎能将输出推离那种过于干净的AI外观。最终感觉更像是用手机实际拍摄的东西。

如何用Veo 3制作竖屏视频

目前Veo 3本身不支持竖屏视频,只支持16:9的横屏。但是,你可以使用像Luma的Reframe Video这样的模型,获取一个横屏视频并进行外绘。
Reframe video允许你传入任何视频(最长30秒),并将其外绘为指定纵横比的新视频。所有输出将为720p。

你的浏览器不支持视频标签。
一个被重新框定为9:16竖屏视频的Veo 3视频

Veo 3对竖屏视频的原生支持即将推出。

物理效果

Veo 3擅长模拟逼真的物理效果,在应用不同风格的同时保持适当的运动和交互。该模型保留了物体的自然运动,确保即使转化为不同的艺术风格,坠落、弹跳和流体运动等基于物理的动画也保持物理准确性。

你的浏览器不支持视频标签。
乐高风格物理
你的浏览器不支持视频标签。
折纸风格物理
你的浏览器不支持视频标签。
铬金风格物理
你的浏览器不支持视频标签。
油漆风格物理

升级至4k和60fps

默认情况下,Veo 3输出1280p x 720p的视频。建议使用Topaz Lab的Video Upscaler将视频提升至4k分辨率和每秒60帧。

最后总结

平淡的视频和出色的视频之间的区别在于你的提示语。使用Veo 3时,你不仅仅是在描述发生了什么,你是在导演一个场景。高质量的视频将融合主体、背景、动作、摄像机工作、音频和情绪。像电影制作人一样思考,Veo 3将跟随你的引导。

最后一个提示语示例:

一个播客节目,一个女人穿着灰色毛衣,深棕色凌乱的头发盘成发髻,发丝勾勒着脸庞。她在一个有粉红色和金色向上照明的房间里。无字幕。她在做结束语,对着麦克风说话时直视镜头(无字幕!):这就是我们指南的结尾,希望你觉得有用。欢迎在Replicate上尝试Veo 3,别忘了在X上关注我们。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1148035.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(8-2-02)自动驾驶中的无地图环境路径探索:基于Pygame的交互式路径规划器(2)

8.2.3 路径规划可视化文件astar.py实现了一个基于A*算法和D* Lite算法的路径规划程序。程序提供了一个可视化界面&#xff0c;允许用户在网格上绘制起始点、目标点和障碍物&#xff0c;然后根据用户选择的算法&#xff08;A或D Lite&#xff09;寻找最短路径。用户可以在设计模…

InstallerX完整指南:如何快速配置你的专属Android安装器

InstallerX完整指南&#xff1a;如何快速配置你的专属Android安装器 【免费下载链接】InstallerX A modern and functional Android app installer. (You know some birds are not meant to be caged, their feathers are just too bright.) 项目地址: https://gitcode.com/G…

ResNet18图像分类镜像上线|40MB小模型,毫秒级响应

ResNet18图像分类镜像上线&#xff5c;40MB小模型&#xff0c;毫秒级响应 &#x1f441;️ 通用物体识别-ResNet18&#xff1a;轻量高效、开箱即用的AI视觉服务 在边缘计算与实时推理需求日益增长的今天&#xff0c;如何在资源受限的设备上实现高精度、低延迟、小体积的图像分类…

5分钟快速上手:免费在线简历生成工具dnd-resume完整指南

5分钟快速上手&#xff1a;免费在线简历生成工具dnd-resume完整指南 【免费下载链接】dnd-resume &#x1f680; Resume Builder 在线简历生成工具 项目地址: https://gitcode.com/gh_mirrors/dn/dnd-resume 还在为制作简历而烦恼吗&#xff1f;dnd-resume 是一款完全免…

ASPICE(Automotive SPICE)流程落地,研发管理工具自研,如何从量化数据体现研发效率提升的

今天我们聊下如何自研研发管理工具,落地ASPCIE流程,工具里设计什么样的量化指标来体现研发效率的提升。 ASPICE(Automotive SPICE)带来的效率提升是显著且可量化的,尤其体现在质量、成本和时间这三个核心维度。下表汇总了关键的量化数据,方便你直观了解其成效。 效率提升…

AI万能分类器应用指南:教育领域文本分类最佳实践

AI万能分类器应用指南&#xff1a;教育领域文本分类最佳实践 1. 引言 1.1 教育场景下的文本分类需求 在当前教育信息化快速发展的背景下&#xff0c;学校、在线教育平台和教务系统每天都会产生大量非结构化文本数据——包括学生反馈、课程评价、家长留言、教学建议、投诉咨询…

Ultimate Vocal Remover终极指南:AI音频分离技术深度解析

Ultimate Vocal Remover终极指南&#xff1a;AI音频分离技术深度解析 【免费下载链接】ultimatevocalremovergui 使用深度神经网络的声音消除器的图形用户界面。 项目地址: https://gitcode.com/GitHub_Trending/ul/ultimatevocalremovergui 还在为如何从复杂音频中提取…

如何快速上手Kikoeru Express:5步完成音声流媒体部署完整指南

如何快速上手Kikoeru Express&#xff1a;5步完成音声流媒体部署完整指南 【免费下载链接】kikoeru-express kikoeru 后端 项目地址: https://gitcode.com/gh_mirrors/ki/kikoeru-express Kikoeru Express是一个专为同人音声爱好者打造的高效音声流媒体服务后端&#xf…

Vivado仿真时钟域处理:UltraScale+多时钟系统实践

Vivado仿真中的多时钟域实战&#xff1a;UltraScale系统设计避坑指南你有没有遇到过这样的情况&#xff1f;代码在Vivado里仿真跑得稳稳当当&#xff0c;波形干净利落&#xff0c;断言一个没报错。结果一上板&#xff0c;功能莫名其妙失效——某个状态机卡死、数据流突然中断&a…

IPTV播放源质量评估:5步掌握iptv-checker稳定性测试方案

IPTV播放源质量评估&#xff1a;5步掌握iptv-checker稳定性测试方案 【免费下载链接】iptv-checker IPTV source checker tool for Docker to check if your playlist is available 项目地址: https://gitcode.com/GitHub_Trending/ip/iptv-checker 问题分析&#xff1a…

RISC-V指令集入门必看:零基础快速理解核心架构

RISC-V指令集入门&#xff1a;从零开始理解它的设计哲学与实战逻辑你有没有遇到过这样的问题——想做个智能传感器&#xff0c;却发现主流MCU的授权费高得离谱&#xff1f;或者在FPGA上实现一个轻量处理器核时&#xff0c;被ARM或x86复杂的指令编码搞得焦头烂额&#xff1f;如果…

AI如何帮你快速实现I2C通信协议开发

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 请生成一个完整的I2C通信协议实现代码&#xff0c;要求包含以下功能&#xff1a;1) I2C主设备初始化函数 2) I2C从设备地址设置 3) 数据读写函数实现 4) 错误处理机制 5) 使用标准…

AI万能分类器技术揭秘:StructBERT模型优势解析

AI万能分类器技术揭秘&#xff1a;StructBERT模型优势解析 1. 技术背景与问题提出 在当今信息爆炸的时代&#xff0c;文本数据的自动化处理已成为企业智能化运营的核心需求。无论是客服工单、用户反馈、新闻资讯还是社交媒体内容&#xff0c;都需要高效、准确地进行分类打标&…

Jetson平台YOLOv8终极实战:TensorRT加速性能优化全攻略

Jetson平台YOLOv8终极实战&#xff1a;TensorRT加速性能优化全攻略 【免费下载链接】YOLOv8-TensorRT YOLOv8 using TensorRT accelerate ! 项目地址: https://gitcode.com/gh_mirrors/yo/YOLOv8-TensorRT 本文将深入探讨在Jetson嵌入式平台上如何通过TensorRT技术实现Y…

HyperDown:现代Markdown解析终极指南

HyperDown&#xff1a;现代Markdown解析终极指南 【免费下载链接】HyperDown 一个结构清晰的&#xff0c;易于维护的&#xff0c;现代的PHP Markdown解析器 项目地址: https://gitcode.com/gh_mirrors/hy/HyperDown 你是否曾为Markdown解析器的性能瓶颈和代码维护难题而…

SpringBoot+Vue 课程答疑系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

&#x1f4a1;实话实说&#xff1a;CSDN上做毕设辅导的都是专业技术服务&#xff0c;大家都要生活&#xff0c;这个很正常。我和其他人不同的是&#xff0c;我有自己的项目库存&#xff0c;不需要找别人拿货再加价&#xff0c;所以能给到超低价格。摘要 随着信息技术的快速发展…

零基础教程:5分钟玩转硅基流动免费API

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 编写一个极简的Python示例代码&#xff0c;展示硅基流动API最基本的使用方法。要求&#xff1a;1. 不超过50行代码 2. 包含获取免费密钥的步骤说明 3. 实现一个最简单的文本分类功…

3分钟搞定家庭网络卡顿:SmartDNS客户端规则与IPv6优化实战

3分钟搞定家庭网络卡顿&#xff1a;SmartDNS客户端规则与IPv6优化实战 【免费下载链接】smartdns A local DNS server to obtain the fastest website IP for the best Internet experience, support DoT, DoH. 一个本地DNS服务器&#xff0c;获取最快的网站IP&#xff0c;获得…

AI万能分类器应用案例:招聘简历自动分类

AI万能分类器应用案例&#xff1a;招聘简历自动分类 1. 引言&#xff1a;AI 万能分类器的现实价值 在企业人力资源管理中&#xff0c;每天都会收到大量来自不同渠道的求职简历。传统的人工筛选方式不仅耗时耗力&#xff0c;还容易因主观判断导致优秀人才被遗漏。随着人工智能…

HyperDown:终极PHP Markdown解析解决方案

HyperDown&#xff1a;终极PHP Markdown解析解决方案 【免费下载链接】HyperDown 一个结构清晰的&#xff0c;易于维护的&#xff0c;现代的PHP Markdown解析器 项目地址: https://gitcode.com/gh_mirrors/hy/HyperDown 在当今数字内容创作时代&#xff0c;Markdown已成…