下一场人工智能革命可能始于世界模型

来源：科技世代千高原

作者：德尼·埃利斯·贝沙尔

编辑：埃里克·沙利文

为什么当今的人工智能系统难以保持一致性，以及新兴的世界模型如何旨在使机器能够稳定地理解空间和时间。

你可能见过人工智能系统出错的情况。你要求播放一段狗狗的视频，当狗狗跑到沙发后面时，它的项圈消失了。然后，随着镜头拉远，沙发变成了三人沙发。

部分问题在于许多人工智能模型的预测特性。例如， ChatGPT所使用的模型经过训练可以预测文本，而视频生成模型则预测接下来最有可能出现的画面。这两种情况下，人工智能都没有一个清晰定义的世界模型，也无法持续更新该模型以做出更明智的决策。

但随着许多人工智能领域的研究人员致力于创建“世界模型”，这种情况正在发生改变。这些模型的影响范围不仅限于视频生成和聊天机器人的使用，还包括增强现实、机器人、自动驾驶汽车，甚至类人智能——或通用人工智能（AGI）。

理解世界建模的一个简单方法是通过四维模型（三维加上时间）。为了更好地理解这一点，让我们回顾一下2012年，《泰坦尼克号》在上映15年后被精心转换成立体3D版本。如果你暂停任何一帧画面，你就能感受到船上人物和物体之间的距离感。但如果莱昂纳多·迪卡普里奥背对着镜头，你就无法绕到他身后看到他的脸。电影的3D幻觉是通过立体成像技术实现的——通常快速交替投射两幅略有不同的图像，一幅对应左眼，一幅对应右眼。影院里的每个人都能看到相同的图像对，因此拥有相似的视角。

然而，得益于过去十年的研究，多视角成像正变得越来越可行。试想一下，如果你意识到应该从另一个角度拍摄一张照片，然后人工智能可以自动调整角度，从而赋予同一场景全新的视角。自 2020 年起，NeRF（神经辐射场）算法为创建“逼真的新视角”提供了一条途径，但这需要将多张照片拼接起来，以便人工智能系统能够生成 3D 模型。其他 3D 方法则利用人工智能预测性地填充缺失信息，但这种方法与现实的偏差更大。

现在，想象一下，《泰坦尼克号》的每一帧都以 3D 形式呈现，这样整部电影就以 4D 形式存在了。你可以滚动时间线观看不同的场景，也可以滚动空间线从不同的视角观看。你还可以生成新的版本。例如，最近一篇预印本论文《NeoVerse：利用自然场景单目视频增强 4D 世界模型》描述了一种将视频转换为 4D 模型，从而从不同视角生成新视频的方法。

但4D技术也能帮助生成新的视频内容。另一篇近期发表的预印本论文《TeleWorld：基于4D世界模型的动态多模态合成》就适用于我们最初讨论的场景：一只狗在沙发后面奔跑。作者认为，当持续更新的4D世界模型指导视频生成时，AI视频系统的稳定性会得到提升。该系统的4D模型可以防止沙发变成长椅，也能防止狗的项圈脱落。

这些只是初步结果，但它们预示着一个更广泛的趋势：模型会在生成过程中更新内部场景地图。然而，4D建模的应用远不止于视频生成。对于增强现实（AR）——例如Meta公司的Orion原型眼镜——4D世界模型是用户所处世界随时间演变的地图。它使AR系统能够保持虚拟物体的稳定性，使光照和透视效果逼真，并拥有对近期事件的空间记忆。它还支持遮挡效果——即数字物体被真实物体遮挡。一篇2023年的论文直截了当地指出：“要实现遮挡效果，需要一个物理环境的3D模型。”

快速将视频转换为 4D 格式，还能为训练机器人和自动驾驶车辆了解真实世界的运作方式提供丰富的数据。通过生成机器人所处空间的 4D 模型，它们可以更好地导航并预测接下来可能发生的事情。如今的通用视觉语言人工智能模型虽然能够理解图像和文本，但无法生成清晰定义的世界模型，因此经常出错；一篇在 2025 年会议上发表的基准论文指出，这些模型在基本的世界建模能力方面存在“显著局限性”，包括“在区分运动轨迹时准确率接近随机”。

关键在于：“世界模型”对于那些致力于通用人工智能（AGI）的人来说意义远不止于此。例如，目前领先的大型语言模型（LLM），例如ChatGPT所使用的模型，都从训练数据中隐含地感知着世界。“从某种意义上说，我认为LLM已经拥有一个非常好的世界模型；只是我们并不真正了解它是如何实现的，”加州大学伯克利分校电子工程与计算机科学系助理教授Angjoo Kanazawa说道。然而，这些概念模型并非对世界的实时物理理解，因为LLM无法实时更新其训练数据。甚至OpenAI的技术报告也指出，其模型GPT-4一旦部署，“就无法从经验中学习”。

“如何开发一个能够接收实时输入、不断更新对世界的理解并做出相应反应的智能LLM视觉系统？”金泽说，“这是一个尚未解决的重大难题。我认为，如果不解决这个问题，通用人工智能（AGI）就不可能实现。”

尽管研究人员仍在争论语言逻辑模型（LLM）是否能够最终实现通用人工智能（AGI），但许多人认为LLM是未来人工智能系统的重要组成部分。金泽表示，LLM将作为“语言和常识进行交流”的桥梁；它将充当“接口”，而一个更清晰定义的底层世界模型将提供当前LLM所缺乏的“时空记忆”。

近年来，许多知名的人工智能研究人员开始关注世界模型。2024年，李飞飞创立了World Labs，该公司近期推出了Marble软件，该软件能够根据“文本、图像、视频或粗略的3D布局”创建3D世界（据该公司宣传资料所述）。去年11月，人工智能研究员Yann LeCun在LinkedIn上宣布离开Meta，创办一家名为Advanced Machine Intelligence（AMI Labs）的初创公司，旨在构建“能够理解物理世界、拥有持久记忆、能够推理并能够规划复杂动作序列的系统”。他在2022年的一份立场文件中提出了这些想法，他在文件中探讨了为什么人类能够在从未遇到过的情况下表现良好，并认为答案“可能在于……学习世界模型的能力，即学习世界运作方式的内部模型”。越来越多的研究证实了内部模型的优势。2025年4月发表在《自然》杂志上的一篇论文报道了DreamerV3的研究成果，DreamerV3是一款人工智能代理，它通过学习世界模型，能够通过“想象”未来场景来改进自身的行为。

因此，在通用人工智能（AGI）的语境下，“世界模型”更侧重于描述现实运作方式的内部模型，而不仅仅是4D重建。然而，4D建模技术的进步可以提供一些组件，帮助我们理解视角、记忆，甚至进行短期预测。同时，在通往AGI的道路上，4D模型可以提供丰富的现实模拟环境，用于测试人工智能，确保当我们让它们在现实世界中运行时，它们知道如何在现实世界中生存。

https://www.scientificamerican.com/article/world-models-could-unlock-the-next-revolution-in-artificial-intelligence/

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/1179862.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！