多镜头视频生成、机器人抓取、扩散模型个性化

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot

本文介绍了一种名为GLM-4-Voice的智能且类人化的端到端语音聊天机器人。它支持中文和英文，能够进行实时语音对话，并根据用户指令灵活调整语音的细微特征，如情感、语调、语速和方言。GLM-4-Voice采用了一种超低比特率（175bps）的单码本语音分词器，其帧率为12.5Hz，是通过在自动语音识别（ASR）模型的编码器中嵌入矢量量化瓶颈而开发的。为了高效地将知识从文本模态转移到语音模态，本利用研究文本到分词模型，从现有的文本预训练语料库中合成语音-文本交错数据。作者从预训练文本语言模型GLM-4-9B出发，结合无监督语音数据、交错语音-文本数据以及监督语音-文本数据，进一步进行预训练，扩展至1万亿个标记，实现了语音语言建模和口语问答的最新水平。最后，本研究使用高质量的对话语音数据对预训练模型进行微调，在对话能力和语音质量方面均优于现有基线模型。

文章链接：

https://arxiv.org/pdf/2412.02612

Let's Think Var-by-Var: Large Language Models Enable Ad Hoc Probabilistic Reasoning

本文提出了一种从大型语言模型（LLMs）中提取“常识”的方法，并将其转化为可用于概率推理的形式。这种能力被认为是智能的一个重要标志，即能够用“常识”来补充未明确说明的情况。本研究专注于估算类问题，例如“新泽西州纽瓦克市的Airbnb房源价格是多少？”在没有数据的情况下，合理回答此类问题需要调用并整合关于价格与地理位置可能与其他变量（如房屋类型）相关的常识片段。本文提出的框架通过合成一个临时的概率模型来回答这类问题。首先，提示LLM提出与问题相关的随机变量集合，然后对它们的联合分布施加矩约束。接着，在对数线性族内优化联合分布p，以最大化满足所有约束条件。实验表明，LLM能够成功地被提示提出合理的变量，尽管所提出的数值约束可能存在噪声，但通过联合优化以满足这些约束可以协调它们。在从三个真实世界表格数据集中衍生的概率问题上进行评估时，本文的方法在与数据集分布的总变差距离方面与直接提示的基线方法表现相当，并且对噪声具有类似的鲁棒性。

文章链接：

https://arxiv.org/pdf/2412.02081

VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation

当前的视频生成模型在生成短视频片段方面表现出色，但在创建多镜头、类似电影的视频方面仍面临挑战。现有的模型在大规模数据和丰富的计算资源支持下进行训练，由于通常以单镜头为目标进行训练，因此在维持连贯剧本的多个镜头之间的逻辑故事线和视觉一致性方面表现不足。为此，本文提出了VideoGen-of-Thought（VGoT），这是一种专为多镜头视频生成设计的协作式且无需训练的架构。VGoT的设计目标如下：

多镜头视频生成：本文将视频生成过程划分为一个结构化、模块化的序列，包括：（1）剧本生成，将简短的故事转化为每个镜头的详细提示；（2）关键帧生成，负责创建与角色表现一致且视觉上连贯的关键帧；（3）镜头级视频生成，将剧本和关键帧的信息转化为镜头；（4）平滑机制，确保多镜头输出的一致性。

合理的叙事设计：受电影剧本创作的启发，本文的提示生成方法涵盖五个关键领域，确保整个视频的逻辑连贯性、角色发展和叙事流畅性。

跨镜头一致性：通过利用跨镜头的身份保持（IP）嵌入来确保时间和身份一致性，这些嵌入是自动从叙事中生成的。此外，本文还引入了一种跨镜头平滑机制，整合了重置边界，有效结合相邻镜头的潜在特征，从而实现平滑过渡并保持视频的视觉连贯性。

实验表明，VGoT在生成高质量、连贯的多镜头视频方面优于现有的视频生成方法。

文章链接：

https://arxiv.org/pdf/2412.02259

AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction

从单张图像生成可动画化的人类虚拟形象对于各种数字人类建模应用至关重要。现有的3D重建方法通常难以捕捉可动画化模型中的细节，而用于可控动画的生成方法虽然避免了显式的3D建模，但在极端姿态下存在视角不一致和计算效率低下的问题。本文通过利用生成模型的强大能力来生成详细的多视角标准姿态图像，从而帮助解决可动画化人类重建中的歧义问题。随后，本文提出了一种用于不一致图像的鲁棒3D重建方法，能够在推理阶段实现实时渲染。具体而言，本文将基于Transformer的视频生成模型适应性地调整为生成多视角标准姿态图像和法线图，并在大规模视频数据集上进行预训练以提高泛化能力。为了解决视角不一致的问题，本文将重建问题重新定义为一个4D任务，并引入了一种基于4D高斯点绘制的高效3D建模方法。实验表明，本文的方法能够从野外图像中实现逼真且实时的3D人类虚拟形象动画化，展示了其有效性和泛化能力。

文章链接：

https://arxiv.org/pdf/2412.02684

Motion Prompting: Controlling Video Generation with Motion Trajectories

运动控制对于生成富有表现力和吸引力的视频内容至关重要；然而，大多数现有的视频生成模型主要依赖于文本提示进行控制，这在捕捉动态动作的细微差别和时间构图方面存在困难。为此，本文训练了一种基于时空稀疏或密集运动轨迹的条件视频生成模型。与以往的运动条件工作相比，这种灵活的表示方法可以编码任意数量的轨迹，包括特定对象的运动或全局场景运动，以及时间上稀疏的运动。由于其灵活性，本文将其称为运动提示（motion prompts）。虽然用户可以直接指定稀疏轨迹，但本文还展示了如何将用户的高级请求转化为详细且半密集的运动提示，这一过程被称为运动提示扩展（motion prompt expansion）。通过多种应用，包括相机和对象运动控制、与图像“交互”、运动迁移以及图像编辑，本文展示了该方法的多功能性。实验结果展示了模型的新兴行为，例如逼真的物理效果，这表明运动提示在探索视频模型和与未来生成式世界模型交互方面的潜力。最后，本文通过定量评估、人类研究以及实验结果，展示了该方法的出色性能。

文章链接：

https://arxiv.org/pdf/2412.02700

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

本文介绍了UniGraspTransformer，这是一种基于Transformer的通用网络，用于灵巧的机器人抓取，旨在简化训练过程，同时提升可扩展性和性能。与以往的方法（例如UniDexGrasp++）不同，UniGraspTransformer采用了一种简化的流程：首先，为单个物体训练专用的策略网络，通过强化学习生成成功的抓取轨迹；然后，将这些轨迹提炼到一个单一的通用网络中。这种方法使得UniGraspTransformer能够有效地扩展，通过多达12个自注意力模块来处理成千上万种具有不同姿态的物体。此外，它在理想化和现实世界的输入上均表现出良好的泛化能力，并在基于状态和基于视觉的设置中进行了评估。值得注意的是，UniGraspTransformer能够为各种形状和方向的物体生成更广泛的抓取姿态，从而实现更多样化的抓取策略。实验结果表明，在基于视觉的设置中，UniGraspTransformer在各种物体类别上相较于最先进的UniDexGrasp++实现了显著的性能提升，分别在已见物体、已见类别中的未见物体以及完全未见物体上获得了3.5%、7.7%和10.1%的成功率提升。

文章链接：

https://arxiv.org/pdf/2412.02699

LoRA Diffusion: Zero-Shot LoRA Synthesis for Diffusion Model Personalization

低秩适应（LoRA）和其他参数高效的微调（PEFT）方法为个性化文本到图像模型提供了低内存、存储高效的解决方案。然而，与全模型微调相比，这些方法在实际训练时间或收敛所需的步数方面几乎没有改进。尽管PEFT方法假设生成分布的变化（从基础模型到微调模型）可以通过低秩子空间中的权重变化有效建模，但它们未能利用对常见用例的知识，而这些用例通常专注于捕捉特定的风格或身份。观察到期望的输出通常只是LoRA训练所涵盖的可能域的一个小子集，本文提出通过引入对感兴趣区域的先验来减少搜索空间。实验表明，训练一个超网络模型以生成LoRA权重，可以在特定领域实现竞争性的质量，同时允许近乎即时地根据用户输入进行条件化，这与传统训练方法（需要数千步）形成了鲜明对比。