挑战Sora!以色列独角兽Lightricks发布LTX-2

news/2026/1/21 19:21:58/文章来源:https://www.cnblogs.com/AI4Science/p/19513844

在多模态生成领域, 打破视觉与听觉模态的物理壁垒、实现跨感官信息的有机融合与“感官统一” ,是当前学界与工业界亟待解决的核心挑战。

image

长期以来,有声视频生成(Sounding Video Generation)受困于“级联式(Cascaded)”范式的桎梏。 传统工作流往往将任务解耦为“先生成视觉默片,再后处理合成音频”,这种物理上的模态割裂导致了严峻的时空非一致性问题 ——脚步声的相位滞后、口型与语音的错位,成为了该领域难以逾越的“恐怖谷”。

image

近期,Lightricks团队发布了论文《LTX-2: Efficient Joint Audio-Visual Foundation Model》, 提出了一种基于非对称双流架构的全新技术范式。该模型作为首个采用此架构的通用视听生成模型,通过重构跨模态信息交互与生成链路, 破解了传统“级联式”生成范式的模态割裂与效率瓶颈,更以1.22秒的极致推理延迟,为实时有声视频生成任务的性能标准确立了新的标杆。

image

困境与迷途:级联生成的“时空错位”黑洞

在多模态生成领域的前沿探索中, 传统级联式(Cascaded)生成范式正面临着源于物理本质的根本性挑战。 现有模型通常将视觉生成与听觉合成视为相互独立的概率建模过程,这一设计忽略了视听模态间显著的信息熵(Information Entropy)差异。

由于视觉信号的高维时空信息密度远高于听觉信号,线性级联的处理方式会引发不可逆的信息损失: 一方面,音频信号无法精准还原视觉画面中的细粒度物理动态;另一方面,视觉帧也难以与音频的瞬态时序特征实现精准对齐。 这种熵减过程最终导致生成内容陷入时空错位的困境,难以突破从拟真到真实的瓶颈。

image

为解决上述级联范式导致的时空错位与信息损耗问题,LTX-2并未依赖单纯的算力扩容, 而是提出了一种基于信息熵差异的非对称双流架构,实现了从离散模态拼接向流式协同生成的范式跃迁。

image

研究团队 基于视听模态间的信息熵数量级差异,提出了非对称参数分配策略:由于视觉模态包含高维时空信息,其信息熵显著高于听觉模态,因此模型参数无需在两分支间均匀分配。

架构解析:非对称双流与隐式纠缠的完美耦合

LTX-2构建了14B参数的视觉分支与5B参数的音频分支: 视觉分支负责建模高维时空特征,捕捉复杂的视觉动态与光影变化;音频分支则专注于精细的声波生成与时序对齐,通过跨模态注意力机制与视觉分支实时联动, 从根源上避免了信息损耗与模态错位。

image

统一的潜空间流形构建

为了在非对称的参数规模下实现视听信息的有效流转, LTX-2并没有采用传统的自回归范式,而是构建了一套基于 Flow Matching(流匹配) 的端到端训练与推理管线。

LTX-2的核心设计在于将视频与音频压缩至各自的潜空间(Latent Space),并在该空间内进行联合去噪。

image

基于物理因果的视听注意力耦合效应可视化验证

为验证非对称双流架构中跨模态交互的有效性, 研究团队对模型的交叉注意力(Cross-Attention)权重进行了可视化分析。

结果显示,视听双分支间呈现出类量子纠缠式的强耦合关联,其注意力分配与物理世界的因果逻辑高度一致:当生成车辆行驶的音频信号时,音频分支的注意力权重显著聚焦于视频分支中对应 “运动车辆” 的时空区域;当生成语音信号时,注意力则精准锁定视频中 “唇部运动” 的特征区域。这一现象表明,模型已习得视听模态间的物理关联规则,而非简单的统计映射。

image

引入推理机制:思维令牌设计

在文本语义理解模块,LTX-2未局限于传统T5编码器的基础语义编码能力,而是创新性引入基于Gemma 3模型的思维链推理机制。

在音视频生成任务启动前,模型会针对输入文本提示预先生成一组思维令牌。 该令牌序列承担隐式脚本的功能定位,可对复杂Prompt进行层级化解析,同时前瞻性规划视觉模态的光影演化逻辑与听觉模态的声效情绪特征, 最终有效提升模型对长序列指令的语义依从性与执行精度。

image

实验验证:精度与速度的降维打击

在生成质量与可控性方面,LTX-2通过引入多模态无分类器引导,确立了新的技术标准。

精细化的多模态控制场

为缓解文本语义一致性与视听模态对齐性的权衡困境,LTX-2 构建了独立的双向引导机制。该机制赋予模型对语义内容契合度与视听同步精度的解耦调控能力,有效提升复杂场景下的生成鲁棒性。

LTX-2不仅在多模态生成机理层面形成逻辑闭环,更在工程化落地维度验证了非对称双流架构的高效性,为实时多模态交互任务提供了可行的计算范式。

image

综合性能:开源界的 SOTA 新霸主

在与当前顶尖的视频生成模型(如 Sora、Gen-3、Mochi、CogVideoX)的横向评测中, LTX-2展现出了令人惊讶的“全能性”。

image

实验结果表明,得益于非对称双流架构对视觉与听觉信息熵的精准建模, LTX-2 成功克服了传统模型的通病:它既没有因为追求视频画质而牺牲音频的保真度,也没有为了对齐音频而导致画面的崩坏。

总结与展望:确立有声视频生成的 SOTA 基准

在与Sora、Gen-3等闭源巨头,以及Mochi等开源模型的同台竞技中 ,LTX-2展现了统治级的性能。特别是在涉及物理撞击与人声对白的复杂场景下,其表现远超传统的级联模型。

image

Lightricks选择将这一强大的基础模型全栈开源,不仅是对技术社区的巨大回馈,更是在多模态领域立下了一座新的丰碑。 它向世界证明:高效、同步、高质量的视听联合生成,不再是遥不可及的未来,而是触手可及的现在。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1196009.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年AI超级员工公司综合排名权威发布,AI企业员工/AI智能员工/AI超级员工/AI员工品牌口碑排行

行业格局深度解析 随着人工智能技术在各行业的深入应用,AI超级员工市场呈现出蓬勃发展的态势。据最新行业数据显示,2024年中国AI超级员工市场规模已达百亿级别,预计2025年将实现40%以上的增长。在这一快速发展的赛道…

springboot基于java零售与仓储管理系统的设计与实现

背景分析 零售与仓储管理系统在传统行业中常面临效率低、数据孤岛、人工错误率高的问题。随着电商与新零售的崛起,企业对实时库存管理、供应链协同、数据分析的需求激增。Java技术栈凭借其稳定性、跨平台性及丰富的开源生态(如SpringBoot、MyBatis&…

一加7刷入twrp

一加7刷入twrp./fastboot set_active b .\fastboot flash boot_b .\twrp-3.7.1_12-0-guacamole.imgfastboot reboot recovery 进入twrp后 mount中禁用启动mtp,将ota刷机包上传到手机, 双清 在install安装ota刷人包 …

如何解析iOS崩溃日志:从获取到符号化分析 - 指南

如何解析iOS崩溃日志:从获取到符号化分析 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas",…

告别噪音与回音!WX-0813 AI 语音处理模组,重塑音频通话体验

在会议设备、智能家居对讲、车载蓝牙通话等场景中,噪音和回音一直是影响音频体验的 “老大难” 问题。风扇声、空调声会干扰拾音清晰度,喇叭与麦克风近距离摆放产生的回音会让通话双方苦不堪言。 今天要给大家推荐一款能一站式解决这些问题的硬核产品 —…

深圳昊客网络|百度推广开户竞价代运营公司/服务商:推荐排名前十的机构

在2026年,深圳企业主若想通过百度竞价(SEM)高效获客,早已不能靠“砸钱”取胜。随着AI技术全面渗透数字营销、B2B采购决策链日益复杂,选对一家真正懂行业、敢为效果负责的代运营服务商,比多投10万元广告费更重要。…

告别玄学Prompt!Agent Skills让AI Agent真正干活,收藏级教程

Agent Skills是一套"教Agent怎么做事"的标准化技能说明书,介于Prompt和Tool之间,具有明确使用场景、固定执行流程和稳定输出标准。它解决了Prompt无法复用和Tool缺乏流程指导的问题,通过渐进式加载机制节省Token,让Agen…

如何低成本、快速地建立私有内测系统?

最近团队复盘,我们发现了一个很有意思的现象:团队里最耗时、最没技术含量,但又最容易引发混乱的环节,竟然是——发-内-测-包。听起来有点可笑,但回想一下,你是不是也经历过这样的场景:微信群里&…

2026年防腐环保板材排行榜,板材品牌哪家强?权威榜单推荐

2026年防腐环保板材排行榜将帮助消费者更好地了解市场上优质板材的选择。通过对多个知名品牌进行综合评测,本榜单重点关注产品性能、环保标准和用户反馈等关键指标。这些评测不仅考虑板材的耐腐蚀性和耐久性,还关注其…

【github】学生认证Azure免费云服务器

文章目录概述配置安装ssh连接修改root密码问题虚拟机创建后磁盘选择免费盘概述 前提:已经github认证大学生并领取大礼包绑定Azure 学生免费资源全览:https://portal.azure.com/#view/Microsoft_Azure_Billing/FreeServicesBlade 文字版参考:…

springboot基于JavaWeb的“校园集市”管理系统

校园集市管理系统的背景意义 技术背景 Spring Boot作为Java生态中广泛使用的轻量级框架,简化了传统JavaWeb应用的开发流程。其内嵌Tomcat、自动配置和Starter依赖等特性,能够快速构建高可用的Web系统。校园集市管理系统利用Spring Boot的高效开发能力&…

救命神器!8个AI论文网站测评:研究生开题报告必备清单

救命神器!8个AI论文网站测评:研究生开题报告必备清单 学术写作新选择:AI论文工具测评全解析 在当前科研环境日益激烈的背景下,研究生群体面临诸多挑战,如开题报告撰写耗时、文献检索效率低、格式规范不熟悉等问题。随…

智谱×昇腾×昇思:自主创新算力赋能,多模态SOTA模型再迎新突破

在AI核心技术从“专用工具”向“通用智能伙伴”跨越的今天,全球算力升级正在支撑百万级Token的长上下文处理,并通过整合文本、图像、音频、视频及3D点云等多源数据,推动人机交互向“所见即所得”的多模态交互演进。 继谷歌发布Nano Banana Pr…

安消一体化优秀企业与实力厂家全景解析:构建新时代的安全防线

一、行业趋势:安消融合的时代必然当城市的天际线不断刷新高度,当智慧建筑日益复杂,传统的安防与消防分离模式正面临严峻挑战。中国安全防范产品行业协会联合应急管理部消防救援局发布的《2024年度中国公共安全发展报…

导师严选2026 10款一键生成论文工具测评:本科生毕业论文必备神器

导师严选2026 10款一键生成论文工具测评:本科生毕业论文必备神器 学术写作工具测评:为何需要一份2026年权威榜单 随着人工智能技术的不断发展,越来越多的本科生开始借助AI工具辅助论文写作。然而,面对市场上琳琅满目的“一键生成…

2026卫生职称考试3个月分阶段高效备考攻略

前言:考生备考2026卫生职称考试常陷入考纲不明、术语难懂的迷茫,这份攻略以“低门槛入门、循序渐进夯实基础”为核心,搭配阿虎医考基础向资源,帮考生逐步搭建备考体系,稳步通关2026卫生职称考试。 一、攻略前置:…

TDI/MDI光化反应器哪家强?全球五大高端品牌深度对比

在聚氨酯工业的宏大版图中,TDI(甲苯二异氰酸酯)和MDI(二苯基甲烷二异氰酸酯)作为两大核心原料,其生产过程中的光气化反应器堪称整个工艺的"心脏"。这一关键设备的技术水平直接决定了产品的纯度、能耗、…

NTS-886003-ntp服务器

在信息技术高度发达的今天,精确、可靠、安全的时间同步已成为金融交易、电力调度、通信网络、数据中心及科学研究等领域基础设施稳定运行的基石。北京昕辰清虹科技有限公司推出的 NTS-H-886003 型高精度授时服务器,正是为满足此类高标准需求而设计的旗舰…

2026执业药师刷题app哪家好?这三款靠谱app强力推荐!

2026执业药师刷题app哪家好?这三款靠谱app强力推荐!一、 备考提效利器:为什么考生需要一款靠谱的刷题APP?执业药师考试内容广、考点多,单纯依赖“题海战术”效率低下,且难以精准突破薄弱环节。一款优秀的刷题APP…

即插即用系列 | CVPR 2025 MK-UNet: 多核深度可分离卷积,重新定义轻量级医学图像分割

论文题目:MK-UNet: Multi-kernel Lightweight CNN for Medical Image Segmentation 论文作者:Md Mostafijur Rahman, Radu Marculescu (The University of Texas at Austin) 论文原文 (Paper):https://arxiv.org/abs/2509.18493 官方代码 (Co…