下一场人工智能革命可能始于世界模型

来源:科技世代千高原

作者:德尼·埃利斯·贝沙尔

编辑:埃里克·沙利文

为什么当今的人工智能系统难以保持一致性,以及新兴的世界模型如何旨在使机器能够稳定地理解空间和时间。

你可能见过人工智能系统出错的情况。你要求播放一段狗狗的视频,当狗狗跑到沙发后面时,它的项圈消失了。然后,随着镜头拉远,沙发变成了三人沙发。

部分问题在于许多人工智能模型的预测特性。例如, ChatGPT所使用的模型经过训练可以预测文本,而视频生成模型则预测接下来最有可能出现的画面。这两种情况下,人工智能都没有一个清晰定义的世界模型,也无法持续更新该模型以做出更明智的决策。

但随着许多人工智能领域的研究人员致力于创建“世界模型”,这种情况正在发生改变。这些模型的影响范围不仅限于视频生成和聊天机器人的使用,还包括增强现实、机器人、自动驾驶汽车,甚至类人智能——或通用人工智能(AGI)。

理解世界建模的一个简单方法是通过四维模型(三维加上时间)。为了更好地理解这一点,让我们回顾一下2012年,《泰坦尼克号》在上映15年后被精心转换成立体3D版本。如果你暂停任何一帧画面,你就能感受到船上人物和物体之间的距离感。但如果莱昂纳多·迪卡普里奥背对着镜头,你就无法绕到他身后看到他的脸。电影的3D幻觉是通过立体成像技术实现的——通常快速交替投射两幅略有不同的图像,一幅对应左眼,一幅对应右眼。影院里的每个人都能看到相同的图像对,因此拥有相似的视角。

然而,得益于过去十年的研究,多视角成像正变得越来越可行。试想一下,如果你意识到应该从另一个角度拍摄一张照片,然后人工智能可以自动调整角度,从而赋予同一场景全新的视角。自 2020 年起,NeRF(神经辐射场)算法为创建“逼真的新视角”提供了一条途径,但这需要将多张照片拼接起来,以便人工智能系统能够生成 3D 模型。其他 3D 方法则利用人工智能预测性地填充缺失信息,但这种方法与现实的偏差更大。

现在,想象一下,《泰坦尼克号》的每一帧都以 3D 形式呈现,这样整部电影就以 4D 形式存在了。你可以滚动时间线观看不同的场景,也可以滚动空间线从不同的视角观看。你还可以生成新的版本。例如,最近一篇预印本论文《NeoVerse:利用自然场景单目视频增强 4D 世界模型》描述了一种将视频转换为 4D 模型,从而从不同视角生成新视频的方法。

但4D技术也能帮助生成新的视频内容。另一篇近期发表的预印本论文《TeleWorld:基于4D世界模型的动态多模态合成》就适用于我们最初讨论的场景:一只狗在沙发后面奔跑。作者认为,当持续更新的4D世界模型指导视频生成时,AI视频系统的稳定性会得到提升。该系统的4D模型可以防止沙发变成长椅,也能防止狗的项圈脱落。

这些只是初步结果,但它们预示着一个更广泛的趋势:模型会在生成过程中更新内部场景地图。然而,4D建模的应用远不止于视频生成。对于增强现实(AR)——例如Meta公司的Orion原型眼镜——4D世界模型是用户所处世界随时间演变的地图。它使AR系统能够保持虚拟物体的稳定性,使光照和透视效果逼真,并拥有对近期事件的空间记忆。它还支持遮挡效果——即数字物体被真实物体遮挡。一篇2023年的论文直截了当地指出:“要实现遮挡效果,需要一个物理环境的3D模型。”

快速将视频转换为 4D 格式,还能为训练机器人和自动驾驶车辆了解真实世界的运作方式提供丰富的数据。通过生成机器人所处空间的 4D 模型,它们可以更好地导航并预测接下来可能发生的事情。如今的通用视觉语言人工智能模型虽然能够理解图像和文本,但无法生成清晰定义的世界模型,因此经常出错;一篇在 2025 年会议上发表的基准论文指出,这些模型在基本的世界建模能力方面存在“显著局限性”,包括“在区分运动轨迹时准确率接近随机”。

关键在于:“世界模型”对于那些致力于通用人工智能(AGI)的人来说意义远不止于此。例如,目前领先的大型语言模型(LLM),例如ChatGPT所使用的模型,都从训练数据中隐含地感知着世界。“从某种意义上说,我认为LLM已经拥有一个非常好的世界模型;只是我们并不真正了解它是如何实现的,”加州大学伯克利分校电子工程与计算机科学系助理教授Angjoo Kanazawa说道。然而,这些概念模型并非对世界的实时物理理解,因为LLM无法实时更新其训练数据。甚至OpenAI的技术报告也指出,其模型GPT-4一旦部署,“就无法从经验中学习”。

“如何开发一个能够接收实时输入、不断更新对世界的理解并做出相应反应的智能LLM视觉系统?”金泽说,“这是一个尚未解决的重大难题。我认为,如果不解决这个问题,通用人工智能(AGI)就不可能实现。”

尽管研究人员仍在争论语言逻辑模型(LLM)是否能够最终实现通用人工智能(AGI),但许多人认为LLM是未来人工智能系统的重要组成部分。金泽表示,LLM将作为“语言和常识进行交流”的桥梁;它将充当“接口”,而一个更清晰定义的底层世界模型将提供当前LLM所缺乏的“时空记忆”。

近年来,许多知名的人工智能研究人员开始关注世界模型。2024年,李飞飞创立了World Labs,该公司近期推出了Marble软件,该软件能够根据“文本、图像、视频或粗略的3D布局”创建3D世界(据该公司宣传资料所述)。去年11月,人工智能研究员Yann LeCun在LinkedIn上宣布离开Meta,创办一家名为Advanced Machine Intelligence(AMI Labs)的初创公司,旨在构建“能够理解物理世界、拥有持久记忆、能够推理并能够规划复杂动作序列的系统”。他在2022年的一份立场文件中提出了这些想法,他在文件中探讨了为什么人类能够在从未遇到过的情况下表现良好,并认为答案“可能在于……学习世界模型的能力,即学习世界运作方式的内部模型”。越来越多的研究证实了内部模型的优势。2025年4月发表在《自然》杂志上的一篇论文报道了DreamerV3的研究成果,DreamerV3是一款人工智能代理,它通过学习世界模型,能够通过“想象”未来场景来改进自身的行为。

因此,在通用人工智能(AGI)的语境下,“世界模型”更侧重于描述现实运作方式的内部模型,而不仅仅是4D重建。然而,4D建模技术的进步可以提供一些组件,帮助我们理解视角、记忆,甚至进行短期预测。同时,在通往AGI的道路上,4D模型可以提供丰富的现实模拟环境,用于测试人工智能,确保当我们让它们在现实世界中运行时,它们知道如何在现实世界中生存。

https://www.scientificamerican.com/article/world-models-could-unlock-the-next-revolution-in-artificial-intelligence/

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1179862.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

动手试了Qwen-Image-Edit-2511,AI换装太真实了

动手试了Qwen-Image-Edit-2511,AI换装太真实了 标签: Qwen-Image-Edit、Qwen-Image-Edit-2511、AI图像编辑、AI绘图本地部署、图像一致性、LoRA模型、AI工业设计 最近在尝试本地化部署AI图像编辑工具时,接触到了 Qwen-Image-Edit-2511 一键整…

《人人都能理解统一场论》

《人人都能理解统一场论》宇宙不仅比我们想象的更奇妙,而且比我们所能想象的还要奇妙。 —— J.B.S. 霍尔丹引言:探索宇宙的终极密码 当你仰望夜空,看繁星点缀星河、银河横贯天际时,是否曾好奇:是什么力量在维系这漫天…

Qwen2.5-0.5B-Instruct功能测评:轻量级模型的强大表现

Qwen2.5-0.5B-Instruct功能测评:轻量级模型的强大表现 1. 引言 在边缘计算和本地化AI服务日益普及的背景下,如何在低算力设备上实现高效、流畅的自然语言交互成为关键挑战。传统大模型虽然性能强大,但往往依赖高性能GPU和大量内存资源&…

从文档到票据:基于DeepSeek-OCR-WEBUI的结构化文本提取实践

从文档到票据:基于DeepSeek-OCR-WEBUI的结构化文本提取实践 1. 引言:从非结构化图像到结构化数据的挑战 在企业级信息处理场景中,大量关键数据以非结构化的形式存在于扫描件、发票、合同、物流单据等图像文件中。传统的人工录入方式不仅效率…

SysRi系统重装

链接:https://pan.quark.cn/s/7f81cf30b4d5SysRi系统重装是一款免费的系统重装类型的工具,辅助个人来完成系统的重装,纯净物捆绑的重装工具,适合小白进行使用的重装软件,支持系统上面的选择,让你能够轻松的…

AI印象派艺术工坊合规性检查:GDPR图像处理部署教程

AI印象派艺术工坊合规性检查:GDPR图像处理部署教程 1. 引言 1.1 学习目标 本文旨在为开发者和系统部署人员提供一套完整的 GDPR 合规性实践指南,围绕“AI印象派艺术工坊”这一基于 OpenCV 的图像风格迁移服务,详细讲解如何在实际部署中确保…

MAME模拟器 ExtraMAME

链接:https://pan.quark.cn/s/2aca11460c1aExtraMAME绿色中文版是一款十分好用的MAME模拟器,这款软件可以轻松的帮助用户在电脑中游玩mame游戏,而且这款软件适用于数千款的老牌街机游戏,让用户可以更好的游玩,有需要的…

亲测TurboDiffusion:输入文字秒出视频,效果太惊艳了!

亲测TurboDiffusion:输入文字秒出视频,效果太惊艳了! 1. 引言 1.1 视频生成技术的瓶颈与突破 近年来,AI生成内容(AIGC)在图像、音频、文本等领域取得了显著进展。然而,视频生成由于其高维度、…

PrivWindoze

链接:https://pan.quark.cn/s/122860426622PrivWindoze 是 Private Windows 的缩写,提供了一个全面的反遥测脚本,旨在增强您在使用 Windows 时的隐私。此脚本有效地修改了各种系统策略,以限制 Microsoft 和原始设备制造商 &#x…

一文说清USB Serial驱动下载后端口不显示的原因

一文说清USB Serial驱动下载后端口不显示的原因 当你的CH340插上去,设备管理器却“装看不见”? 你有没有遇到过这种场景:手头一个基于ESP32或STM32的开发板,用的是常见的CH340、CP2102这类USB转串口芯片。你信心满满地把线一插&…

Notepad4(文本编辑器)

链接:https://pan.quark.cn/s/b58b87dd5465Notepad4 是一款非常轻量级的 Windows 文本编辑器,具备语法高亮、代码折叠、自动补全等功能。它基于 Notepad2 和 Notepad2-mod,通过现代 C 进行重写,支持从 Windows XP 到 Windows 11 的…

x64dbg下载与OD对比:哪款更适合现代逆向分析?

x64dbg 与 OllyDbg 的对决:现代逆向分析,谁才是真正的主力工具? 你有没有试过用 OllyDbg 打开一个 Windows 10 上的原生程序,结果弹出一句“Invalid executable file format”? 或者在分析某个游戏保护模块时&#x…

windirstat中文版

链接:https://pan.quark.cn/s/23af46a95944windirstat中文版是一个适用于多种Windows版本的硬盘空间使用情况统计信息查看器与清理工具。它能以全彩的方式来呈现不同的文件在硬盘中占去的空间大小,让用户可以知道是哪一类型的文件占据了硬盘空间&#xf…

MinerU 2.5实战教程:学术会议论文集批量解析方法

MinerU 2.5实战教程:学术会议论文集批量解析方法 1. 引言 1.1 学术文献处理的现实挑战 在科研工作中,大量时间被消耗在文献阅读与信息整理上。尤其是面对国际学术会议(如CVPR、ACL、NeurIPS)发布的论文集PDF时,传统…

Open Interpreter自定义系统提示:行为权限调整部署教程

Open Interpreter自定义系统提示:行为权限调整部署教程 1. 引言 1.1 业务场景描述 在本地开发环境中,越来越多开发者希望借助大语言模型(LLM)实现自然语言到可执行代码的直接转换,同时保障数据隐私与系统安全。Open…

学长亲荐!10款AI论文写作软件测评,本科生毕业论文必备

学长亲荐!10款AI论文写作软件测评,本科生毕业论文必备 2026年AI论文写作工具测评:为何值得一看? 随着人工智能技术的不断进步,越来越多的本科生开始借助AI工具辅助论文写作。然而,面对市场上琳琅满目的AI论…

MediaMonkey Gold

链接:https://pan.quark.cn/s/cf5a7f34ac14MediaMonkey Gold是一款十分出色的音乐文件管理,转换和播放软件,界面美观大方,功能强劲实用,软件支持编辑文件标签,转换cd文件为OGG,MP3,和…

YOLOv8环境搭建难题?预置镜像打开浏览器就能用

YOLOv8环境搭建难题?预置镜像打开浏览器就能用 你是不是也遇到过这种情况:作为一个前端程序员,本来每天写写页面、调调接口挺轻松的,结果某天领导一句话——“你去调研一下计算机视觉,看看能不能识别条形码”——瞬间…

bert-base-chinese技术详解:注意力机制在中文NLP

bert-base-chinese技术详解:注意力机制在中文NLP 1. 技术背景与问题提出 自然语言处理(NLP)的核心挑战在于如何让机器真正“理解”人类语言的语义。传统方法依赖于词袋模型、TF-IDF 或 RNN 结构,难以捕捉长距离依赖和上下文动态…

5个必试的PyTorch 2.5案例:云端GPU一键运行,10块钱玩转

5个必试的PyTorch 2.5案例:云端GPU一键运行,10块钱玩转 你是不是也正处在这样的困境中?想转行AI,但一上手就被环境配置劝退——装PyTorch时CUDA版本不匹配、cudatoolkit和pytorch版本对不上、pip install一堆报错……更别提还要折…