多镜头视频生成、机器人抓取、扩散模型个性化 | Big Model weekly第58期

点击蓝字

a76fa8ea6eea932147f1307513542c1a.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot

本文介绍了一种名为GLM-4-Voice的智能且类人化的端到端语音聊天机器人。它支持中文和英文,能够进行实时语音对话,并根据用户指令灵活调整语音的细微特征,如情感、语调、语速和方言。GLM-4-Voice采用了一种超低比特率(175bps)的单码本语音分词器,其帧率为12.5Hz,是通过在自动语音识别(ASR)模型的编码器中嵌入矢量量化瓶颈而开发的。为了高效地将知识从文本模态转移到语音模态,本利用研究文本到分词模型,从现有的文本预训练语料库中合成语音-文本交错数据。作者从预训练文本语言模型GLM-4-9B出发,结合无监督语音数据、交错语音-文本数据以及监督语音-文本数据,进一步进行预训练,扩展至1万亿个标记,实现了语音语言建模和口语问答的最新水平。最后,本研究使用高质量的对话语音数据对预训练模型进行微调,在对话能力和语音质量方面均优于现有基线模型。

015524165a38b62ceed66926e5f4bb31.png

4cf8bf16449eb0654f1b08c041cd9370.png

c3cce525323cf502fdf87cc165782b92.png

6d52ad8b5e4477602fbbcc485361ecf9.png

587b4c66253d3029b56e69d426ebf96d.png

文章链接:

https://arxiv.org/pdf/2412.02612

02

Let's Think Var-by-Var: Large Language Models Enable Ad Hoc Probabilistic Reasoning

本文提出了一种从大型语言模型(LLMs)中提取“常识”的方法,并将其转化为可用于概率推理的形式。这种能力被认为是智能的一个重要标志,即能够用“常识”来补充未明确说明的情况。本研究专注于估算类问题,例如“新泽西州纽瓦克市的Airbnb房源价格是多少?”在没有数据的情况下,合理回答此类问题需要调用并整合关于价格与地理位置可能与其他变量(如房屋类型)相关的常识片段。本文提出的框架通过合成一个临时的概率模型来回答这类问题。首先,提示LLM提出与问题相关的随机变量集合,然后对它们的联合分布施加矩约束。接着,在对数线性族内优化联合分布p,以最大化满足所有约束条件。实验表明,LLM能够成功地被提示提出合理的变量,尽管所提出的数值约束可能存在噪声,但通过联合优化以满足这些约束可以协调它们。在从三个真实世界表格数据集中衍生的概率问题上进行评估时,本文的方法在与数据集分布的总变差距离方面与直接提示的基线方法表现相当,并且对噪声具有类似的鲁棒性。

5f9d0eea68cc495dd5f42f3cd5ced8c7.png

ac3fe29e140c5ed1250e3b5ea39b7bfa.png

6985a85842b45534926cbffe76c7b5b5.png

文章链接:

https://arxiv.org/pdf/2412.02081

03

VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation

当前的视频生成模型在生成短视频片段方面表现出色,但在创建多镜头、类似电影的视频方面仍面临挑战。现有的模型在大规模数据和丰富的计算资源支持下进行训练,由于通常以单镜头为目标进行训练,因此在维持连贯剧本的多个镜头之间的逻辑故事线和视觉一致性方面表现不足。为此,本文提出了VideoGen-of-Thought(VGoT),这是一种专为多镜头视频生成设计的协作式且无需训练的架构。VGoT的设计目标如下:

多镜头视频生成:本文将视频生成过程划分为一个结构化、模块化的序列,包括:(1)剧本生成,将简短的故事转化为每个镜头的详细提示;(2)关键帧生成,负责创建与角色表现一致且视觉上连贯的关键帧;(3)镜头级视频生成,将剧本和关键帧的信息转化为镜头;(4)平滑机制,确保多镜头输出的一致性。

合理的叙事设计:受电影剧本创作的启发,本文的提示生成方法涵盖五个关键领域,确保整个视频的逻辑连贯性、角色发展和叙事流畅性。

跨镜头一致性:通过利用跨镜头的身份保持(IP)嵌入来确保时间和身份一致性,这些嵌入是自动从叙事中生成的。此外,本文还引入了一种跨镜头平滑机制,整合了重置边界,有效结合相邻镜头的潜在特征,从而实现平滑过渡并保持视频的视觉连贯性。

实验表明,VGoT在生成高质量、连贯的多镜头视频方面优于现有的视频生成方法。

b59f10e6f41c70e5294cd62438725c19.png

17718573028be844d4b1517918c06179.png

87f620fb94d7794a6318d66af4b2ddcb.png

31152e1bd542e2df7d0835e5086b348a.png

00d3dd79392d3a4b80d57d0715d836c9.png

3951b3b3a89509f43496dea470d87821.png

文章链接:

https://arxiv.org/pdf/2412.02259

04

AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction

从单张图像生成可动画化的人类虚拟形象对于各种数字人类建模应用至关重要。现有的3D重建方法通常难以捕捉可动画化模型中的细节,而用于可控动画的生成方法虽然避免了显式的3D建模,但在极端姿态下存在视角不一致和计算效率低下的问题。本文通过利用生成模型的强大能力来生成详细的多视角标准姿态图像,从而帮助解决可动画化人类重建中的歧义问题。随后,本文提出了一种用于不一致图像的鲁棒3D重建方法,能够在推理阶段实现实时渲染。具体而言,本文将基于Transformer的视频生成模型适应性地调整为生成多视角标准姿态图像和法线图,并在大规模视频数据集上进行预训练以提高泛化能力。为了解决视角不一致的问题,本文将重建问题重新定义为一个4D任务,并引入了一种基于4D高斯点绘制的高效3D建模方法。实验表明,本文的方法能够从野外图像中实现逼真且实时的3D人类虚拟形象动画化,展示了其有效性和泛化能力。

f8a8121c9dfa2811dfaac1049cda4dd7.png

8962726d22c4af223450baf607c9f3f2.png

c70e7f11c5da3ae898ed51534d2c5d25.png

11bf441da297e60ed03eaad6dcd3e001.png

c83d43a9286faef8d43787346b9058cf.png

文章链接:

https://arxiv.org/pdf/2412.02684

05

Motion Prompting: Controlling Video Generation with Motion Trajectories

运动控制对于生成富有表现力和吸引力的视频内容至关重要;然而,大多数现有的视频生成模型主要依赖于文本提示进行控制,这在捕捉动态动作的细微差别和时间构图方面存在困难。为此,本文训练了一种基于时空稀疏或密集运动轨迹的条件视频生成模型。与以往的运动条件工作相比,这种灵活的表示方法可以编码任意数量的轨迹,包括特定对象的运动或全局场景运动,以及时间上稀疏的运动。由于其灵活性,本文将其称为运动提示(motion prompts)。虽然用户可以直接指定稀疏轨迹,但本文还展示了如何将用户的高级请求转化为详细且半密集的运动提示,这一过程被称为运动提示扩展(motion prompt expansion)。通过多种应用,包括相机和对象运动控制、与图像“交互”、运动迁移以及图像编辑,本文展示了该方法的多功能性。实验结果展示了模型的新兴行为,例如逼真的物理效果,这表明运动提示在探索视频模型和与未来生成式世界模型交互方面的潜力。最后,本文通过定量评估、人类研究以及实验结果,展示了该方法的出色性能。

34ac77cea435c045dcf51cbcc2d6f6fd.png

cb2b25b3f66c9dd29fd59914a80f0ec8.png

604b16ad7ab798f68bb4a9b166bf3bb7.png

959825bd0b14218d146b699d214af454.png

文章链接:

https://arxiv.org/pdf/2412.02700

06

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

本文介绍了UniGraspTransformer,这是一种基于Transformer的通用网络,用于灵巧的机器人抓取,旨在简化训练过程,同时提升可扩展性和性能。与以往的方法(例如UniDexGrasp++)不同,UniGraspTransformer采用了一种简化的流程:首先,为单个物体训练专用的策略网络,通过强化学习生成成功的抓取轨迹;然后,将这些轨迹提炼到一个单一的通用网络中。这种方法使得UniGraspTransformer能够有效地扩展,通过多达12个自注意力模块来处理成千上万种具有不同姿态的物体。此外,它在理想化和现实世界的输入上均表现出良好的泛化能力,并在基于状态和基于视觉的设置中进行了评估。值得注意的是,UniGraspTransformer能够为各种形状和方向的物体生成更广泛的抓取姿态,从而实现更多样化的抓取策略。实验结果表明,在基于视觉的设置中,UniGraspTransformer在各种物体类别上相较于最先进的UniDexGrasp++实现了显著的性能提升,分别在已见物体、已见类别中的未见物体以及完全未见物体上获得了3.5%、7.7%和10.1%的成功率提升。

b475bbe5e89fb15121f0afdbe0f0a4fb.png

ffe4b9305efd57c633bfd68eeefdc525.png

652672f142fc98640a802573b077c49b.png

508570aa1a8913db8d2287d9a0ad09e9.png

d5669ca750cc94f6024661a363bbb334.png

文章链接:

https://arxiv.org/pdf/2412.02699

07

LoRA Diffusion: Zero-Shot LoRA Synthesis for Diffusion Model Personalization

低秩适应(LoRA)和其他参数高效的微调(PEFT)方法为个性化文本到图像模型提供了低内存、存储高效的解决方案。然而,与全模型微调相比,这些方法在实际训练时间或收敛所需的步数方面几乎没有改进。尽管PEFT方法假设生成分布的变化(从基础模型到微调模型)可以通过低秩子空间中的权重变化有效建模,但它们未能利用对常见用例的知识,而这些用例通常专注于捕捉特定的风格或身份。观察到期望的输出通常只是LoRA训练所涵盖的可能域的一个小子集,本文提出通过引入对感兴趣区域的先验来减少搜索空间。实验表明,训练一个超网络模型以生成LoRA权重,可以在特定领域实现竞争性的质量,同时允许近乎即时地根据用户输入进行条件化,这与传统训练方法(需要数千步)形成了鲜明对比。

e20f9f055364b71e347712b01bc03f79.png

fb3eb86a9b2050c9e5e71010abc0d619.png

28208fc062897a01f2c39022bd7eb8f3.png

97adc57660e09edd68b4099913b3bc39.png

文章链接:

https://arxiv.org/pdf/2412.02352

本期文章由陈研整理

往期精彩文章推荐

dc992a6d32c7ec7c47fc288547ff80b6.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

49bb469d144c51cdd5f3611089eec739.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

54a00b237652910da5026f0767a859ce.gif

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/896881.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于 Rust 与 GBT32960 规范的编解码层

根据架构设计,实现编解码层的代码设计 Cargo.toml 加入二进制序列化支持 # 序列化支持 ... bincode "1.3" # 添加二进制序列化支持 bytes-utils "0.1" # 添加字节处理工具 开始编码 错误处理(error.rs&#x…

MOM成功实施分享(七)电力电容制造MOM工艺分析与解决方案(第一部分)

声明:文章仅用于交流学习,不用于商业项目实施,图片来源于网络,如有侵犯权利,请联系作者及时删除。 本方案旨在对电力电容(PEC和PQM型号)制造工艺深度分析,结合管理要求设计MOM相关功…

FPGA开发,使用Deepseek V3还是R1(1):应用场景

以下都是Deepseek生成的答案 FPGA开发,使用Deepseek V3还是R1(1):应用场景 FPGA开发,使用Deepseek V3还是R1(2):V3和R1的区别 FPGA开发,使用Deepseek V3还是R1&#x…

JavaWeb后端基础(3)

原打算把Mysql操作数据库的一些知识写进去,但是感觉没必要,要是现在会的都是简单的增删改查,所以,这一篇,我直接从java操作数据库开始写,所以这一篇大致就是记一下JDBC、MyBatis、以及SpringBoot的配置文件…

Pytorch实现之SRGAN+CBAM的结构设计

简介 简介:在SRGAN的残差连接中加入了CBAM注意力机制,同时设计了四类损失来训练。 论文题目:Super-resolution Generative Adversarial Networks Based on Attention Model(基于注意力模型的超分辨率生成对抗网络) 会议:2020 IEEE第六届计算机与通信国际会议 摘要:基…

移动端国际化翻译同步解决方案-V3

1.前言 因为软件出海,从在上上家公司就开始做翻译系统,到目前为止已经出了两个比较大的版本了,各个版本解决的痛点如下: V1版本: 主要针对的是AndroidiOS翻译不一致和翻译内容管理麻烦的问题,通过这个工具…

2.css简介

什么是css: CSS (Cascading Style Sheets,层叠样式表),是一种用来为结构化文档(如 HTML 文档或 XML 应用)添加样式(字体、间距和颜色等)的计算机语言,CSS 文件扩展名为 .…

机器人学习模拟框架 robosuite (3) 机器人控制代码示例

Robosuite框架是一个用于机器人模拟和控制的强大工具,支持多种类型的机器人。 官方文档:Overview — robosuite 1.5 documentation 开源地址:https://github.com/ARISE-Initiative/robosuite 目录 1、通过键盘或SpaceMouse远程控制机器人…

可终身授权的外国工具,不限次数使用!PDF转CAD的软件

最近有不少朋友问我有没有好用的CAD转换工具,今天就来给大家分享两款超实用的小软件,希望能帮到大家。 第一款软件是一款国外开发的,它专门用来把PDF文件转换成CAD格式,特别方便。 这款软件的操作非常简单,打开后无需安…

Ubuntu系统上部署Node.js项目的完整流程

以下是在Ubuntu系统上部署Node.js项目的完整流程,分为系统初始化、环境配置、项目部署三个部分: 一、系统初始化 & 环境准备 bash # 1. 更新系统软件包 sudo apt update && sudo apt upgrade -y# 2. 安装基础工具 sudo apt install -y buil…

Android内存优化指南:从数据结构到5R法则的全面策略

目录 一、APP 内存限制 二、内存的三大问题 2.1、内存抖动(Memory Churn) 2.1.1 频繁创建短生命周期对象 2.1.2 系统API或第三方库的不合理使用 2.1.3 Handler使用不当 2.2、内存泄漏(Memory Leak) 2.2.1 静态变量持有Activity或Context引用 2.2.2 未取消的回调或…

ffmpeg源码编译支持cuda

1.安装cuda CUDA Toolkit 11.3 Downloads | NVIDIA Developer 在选择组件的时候,将CUDA中的Nsight VSE和Visual Studio Integration取消勾选 不然会安装失败 2.编译ffmpeg 把cuda编译宏定义开启,再编译avcodec 3.编译livavutil报错struct "Cuda…

Git强制覆盖分支:将任意分支完全恢复为main分支内容

Git强制覆盖分支:将任意分支完全恢复为main分支内容 场景背景完整操作步骤一、前置准备二、操作流程步骤 1:更新本地 main 分支步骤 2:强制重置目标分支步骤 3:强制推送至远程仓库 三、操作示意图 关键风险提示(必读&a…

【Java反序列化测试】

Java反序列化测试 1. 识别反序列化入口点2. 构造探测Payload3. 发送Payload并观察结果4. 绕过可能的防护5. 自动化工具注意事项总结 Java反序列化测试: 1. 识别反序列化入口点 常见入口: HTTP请求参数(如POST数据、Cookie、Headers&#xff…

golang的io

https://www.bilibili.com/list/BV1gx4y1r7xb 1. 原生io包 io包是Go语言标准库中底层的I/O接口层,定义了通用的读写规则和错误处理逻辑。每次读写都是直接调用底层系统 I/O,每次读取1字节,系统调用次数多。适用于小数据量、实时性要求高。io…

【北京迅为】iTOP-RK3568OpenHarmony系统南向驱动开发-第4章 UART基础知识

瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工艺,搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码,支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU,可用于轻量级人工…

【计算机网络入门】初学计算机网络(十)(重要)

目录 1. 网络层的作用 2. IPV4 2.1 IP 数据报格式 2.2 IP地址分类方案 2.3 数据的转发 2.4 特殊用途的IP地址 3. 子网划分和子网掩码 3.1 子网划分 3.2 子网掩码 1. 网络层的作用 按照教学五层模型,应用层、传输层、网络层、数据链路层、物理层&#xff…

机器学习(五)

一,多类(Multiclass) 多类是指输出不止有两个输出标签,想要对多个种类进行分类。 Softmax回归算法: Softmax回归算法是Logistic回归在多类问题上的推广,和线性回归一样,将输入的特征与权重进行…

基于 Vue 和 SSM 的前后端分离项目实战:登录与注册功能实现

文章目录 前言项目概述前端部分(Vue)1. 项目初始化2. 页面布局Login.vueRegister.vue 3. 路由配置4. 主组件 后端部分(SSM)1. 项目结构2. 数据库设计3. MyBatis 配置4. DAO 层5. Service 层6. Controller 层7. 配置文件8. Spring …

Windows安装nvm【超详细图解】

目录 前言 一、NVM下载 方式一:官网下载 方式二:GitHub 下载 二、NVM安装 镜像源配置 三、Node安装 四、环境变量配置 前言 NVM(Node Version Manager)是一个命令行工具,用于在一台计算机上轻松管理和切换多…