李飞飞团队的世界模型是新趋势吗?

拒彭博社消息:今日李飞飞团队创办的世界模型World Labs正在以约50亿美元估值进行新一轮融资,融资规模最高可达5亿美元。

作为AI 观察者,我对这个话题还挺有感触的。毕竟,从ImageNet到现在的世界模型,李飞飞的每一步都在推动AI的边界。


1.李飞飞:从洗碗工到AI教母

为什么大家对李飞飞的动向如此关注呢?因为她的经历本身就是一部传奇。1992年,16岁的李飞飞跟着父母移民美国,全家只有20美元,她不得不在中餐厅打工,时薪2美元,每天说的最多的英语是“sorry”。然而这个女孩却考进了普林斯顿,并毅然投身当时无人看好的AI领域,还选了冷门方向——希望让计算机“看见”世界。

后来她的“傻功夫”造就了ImageNet,一个包含数百万张标注图片的数据库。正是这个项目为后来的深度学习革命提供了燃料,直接点燃了AI的黄金时代。李飞飞也因此从洗碗工逆袭为公认的“AI教母”。


2.世界模型:AI的下一个前沿

就在所有人沉迷于ChatGPT写诗、用Sora生成逼真视频时,李飞飞却大声疾呼:现在的AI是个偏科生,甚至是书呆子。它能妙笔生花,却让机器人去厨房拿个杯子都可能闯祸。因为它读了万卷书,却从未活在真实世界,不懂重力,不知物体背后什么样。

她有个精妙的比喻:当今AI就像柏拉图洞穴里的图像,从未触碰过真实的实体。而她的新公司World Labs就是要为AI补上这块最关键的拼图——空间智能。这不是普通创业,而是集结了图形学、视觉、推理领域顶尖大神的“复仇者联盟”。

世界模型的三大核心能力

李飞飞认为,一个真正具备空间智能的世界模型应具备以下三大核心能力:

1.生成性想象:不是拼接图片,而是像搭积木一样生成符合物理规律的3D世界。比如给AI一个“魔法森林”的指令,它能生成树木的高度、河流的流向、光影的变化,甚至落叶的轨迹——所有细节在空间上自洽。

2.多模态交互:既能“看懂”图像、视频,也能“听懂”手势、指令,还能“触摸”物体的硬度、温度。就像消防员在浓烟中,既能通过热成像仪定位火源,也能通过队友的手势判断退路,更能通过脚下的震动感知楼板的承重。

3.动态预测:给定初始状态和动作,能精准预测下一秒会发生什么。比如推一下桌子,AI能算出杯子会怎么晃动、会不会掉下去、掉下去会碎成几块——这需要对摩擦力、惯性、材料强度的综合理解。


3.Marble平台:世界模型的首次落地

2025年底,World Labs正式推出首款产品Marble。仅需一句话、一张图片或一段视频,便可生成高保真的3D世界。更重要的是,其清晰的商业化潜力让投资人重新审视世界模型这一路线的可行性。

Marble的核心突破

与LeCun团队的路线不同,Marble走的是可视化世界模型方向,生成结果在视觉层面极具完成度。它的核心突破主要体现在三个方面:

1.从理解到创造的跨越:AI不再是被动地识别或描述存量信息,而是主动地生成全新的、结构化的三维信息。这是从信息消费者到信息创造者的质变。

2.从静态生成到动态迭代的进化:它摆脱了早期AIGC工具“开盲盒”式的单次生成模式。其原生的编辑和扩展能力,让创作过程回归到符合人类直觉的“设计-反馈-修改”的闭环中,这对于工业级应用至关重要。

3.从孤立工具到融入管线的桥梁:通过支持标准化的工业格式和主流引擎,Marble打通了从AI创意生成到最终产品应用的“最后一公里”。它产出的不再是只能看的“demo”,而是能用的“素材”和“资产”。


4.市场反应:估值暴增至50亿美元

从10亿到50亿,李飞飞的World Labs只用了一年时间,就完成了市值的华丽蜕变。2026年1月23日,据彭博社报道,人工智能领域知名学者李飞飞正在与投资者洽谈,计划为其初创公司World Labs筹集约5亿美元的新一轮融资。此轮融资目标估值高达50亿美元,较2024年公司成立时的10亿美元估值暴涨400%。

这一估值跃升揭示了资本市场对“空间智能”和“世界模型”这一AI新赛道的强烈看好。World Labs作为该领域的先行者,正致力于开发能够理解、导航并与三维世界互动的AI工具,这被认为是超越当前大语言模型的下一个前沿阵地。

投资方阵容豪华

World Labs的投资方阵容堪称“全明星级别”,涵盖了顶级风投、产业资本和主权财富基金。现有投资方包括硅谷顶尖风投安德森·霍洛维茨(Andreessen Horowitz)、恩颐投资(NEA)以及李飞飞担任科学合伙人的风投机构Radical Ventures。此外,英伟达旗下的风险投资部门NVentures也已参与投资。

2026年1月,在CES 2026展会上,World Labs宣布与AMD展开合作,旨在优化其生成式3D模型Marble在AMD硬件上的性能。李飞飞在演示中表示,Marble模型在AMD Instinct MI325X等平台上运行,并借助AMD ROCm软件栈实现了性能提升。


5.未来影响:从创意工具到科学革命

空间智能不是实验室里的概念,它正在掀起一场“应用静默革命”。李飞飞在文中披露了三个正在落地的场景,每一个都可能重构行业规则。

创意产业:从“二维绘画”到“三维造世”

World Labs的Marble项目已经让部分创作者体验到“空间智能创作”的魅力。你只需输入“赛博朋克风格的2077年城市”,AI会生成一个完整的3D城市模型——不仅有建筑外观,还有内部结构(如地铁线路、房间布局),甚至天气系统(下雨时地面会积水,霓虹灯在水中的倒影会随涟漪变化)。

更颠覆的是“交互式创作”。传统AI绘画是“一次性生成”,而Marble允许你“走进”生成的世界:你可以推开一家酒吧的门,调整霓虹灯的颜色,甚至让AI根据你的动作生成新的场景(比如你拿出枪,AI会自动生成警察追捕的剧情)。

李飞飞预测:“未来五年,80%的游戏场景、电影特效、建筑设计将由空间智能生成,人类创作者从’画师’升级为’世界导演’。”

机器人:从“实验室玩具”到“家庭助手”

当前机器人最大的痛点是“场景适应力差”:在实验室里能精准分拣零件,到了你家厨房连碗都端不稳。根源在于缺乏“家庭空间模型”——它不知道你家地板是滑的,不知道酱油瓶是圆的容易滚,不知道猫突然跑过该怎么躲。

世界模型正在解决这个问题。李飞飞团队与波士顿动力合作,给机器人植入了“家庭空间数据库”:包含10万种常见家具的尺寸、材质、承重数据,20万种家庭场景的动态规律(如“开门时门后可能有人”“地上的电线会绊倒人”)。实验显示:植入世界模型的机器人,在陌生家庭环境中的任务成功率从41%提升到92%。

“未来的机器人,不是’编程控制’的机器,而是’空间理解’的伙伴。”李飞飞说。

科学发现:从“试错实验”到“虚拟推演”

在科学领域,空间智能可能带来更革命性的突破。传统材料研发靠“煮大锅饭”式试错(如研发新型电池,要测试上万种材料组合),而世界模型能在虚拟空间中模拟原子的空间排列、电子的运动轨迹。

李飞飞举例:“我们用世界模型模拟了’锂硫电池’的分子结构,发现硫原子在特定空间排列下,充电效率能提升300%——这在现实实验室需要3年,在虚拟空间只需3天。”

更疯狂的是“生物空间模拟”。斯坦福医学院正利用世界模型模拟癌细胞在体内的扩散路径,精准预测肿瘤会转移到哪个器官;NASA则用它模拟火星土壤的空间结构,优化火星车的采样策略。

“当科学从’观察现象’进入’虚拟推演’,人类的认知边界将被无限拓宽。”李飞飞断言。


6.挑战与展望

当然,要实现这样一个功能强大的世界模型,挑战是巨大的。李飞飞教授也毫不避讳地指出了几个技术上的难点:

1.训练目标问题:需要找到像LLM的“下一个词预测”一样优雅的通用目标函数。

2.数据问题:训练世界模型需要海量的视觉数据,而且还得是带有深度信息、触觉信息等更丰富维度的数据。

3.模型架构问题:现有的模型架构,比如那些用于视频生成的,通常是把数据当成一维或二维的序列来处理,这对于处理空间关系来说效率很低。

不过尽管挑战重重,李飞飞教授和她的团队已经在行动了。她们已经发布了Marble平台,这可以说是世界上第一个可以通过多模态输入来生成和维持一致三维环境的世界模型。虽然目前还在早期阶段,但这无疑是一个非常重要的开始,大家可自信搜索并体验,效果还是非常不错的。


7.结语:空间智能时代的到来

从ImageNet到世界模型,李飞飞的职业生涯仿佛AI发展的一个缩影:从图像识别到世界模型,从感知到认知。随着World Labs等公司的崛起,AI投资的重心可能从当前的大语言模型转向更具综合能力的空间智能和世界模型。

李飞飞在文末引用了达芬奇的话:“人类的智慧,在于连接所见与所想。”空间智能AI,正是这种连接的终极工具——它让机器“看见”世界,“理解”世界,最终与人类一起“创造”世界。

下一个十年,不是AI取代人类,而是人类通过空间智能,将自己的想象力、创造力、行动力,延伸到物理世界的每一个角落。当AI能帮你设计梦想中的房子并亲自“搭”出来,当机器人能精准照顾卧床的老人,当科学家能在虚拟空间中“触摸”黑洞——这不是科幻,而是李飞飞用行动为我们描绘的“空间智能时代”。

关键在于,我们是被动等待,还是主动参与这场变革。毕竟,真正的AI革命,从来不是机器的进化,而是人类与机器共生方式的重构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1221820.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Fiddler中文版:网络流量分析与调试的全功能平台

Fiddler中文版:网络流量分析与调试的全功能平台 【免费下载链接】zh-fiddler Fiddler Web Debugger 中文版 项目地址: https://gitcode.com/gh_mirrors/zh/zh-fiddler 在当今复杂的网络环境中,开发者和运维人员经常面临网络请求异常却难以定位原因…

7个实用方法:系统内存管理工具提升电脑性能实战指南

7个实用方法:系统内存管理工具提升电脑性能实战指南 【免费下载链接】memreduct Lightweight real-time memory management application to monitor and clean system memory on your computer. 项目地址: https://gitcode.com/gh_mirrors/me/memreduct 在日…

Mac鼠标优化完全指南:告别卡顿与方向混乱的终极解决方案

Mac鼠标优化完全指南:告别卡顿与方向混乱的终极解决方案 【免费下载链接】Mos 一个用于在 macOS 上平滑你的鼠标滚动效果或单独设置滚动方向的小工具, 让你的滚轮爽如触控板 | A lightweight tool used to smooth scrolling and set scroll direction independently…

重构你的数字空间:NoFences解放混乱桌面的极简方案

重构你的数字空间:NoFences解放混乱桌面的极简方案 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 桌面失控:你是否也深陷这三大困境? &a…

厦门大学智能排版:LaTeX学术模板的学术效率革命

厦门大学智能排版:LaTeX学术模板的学术效率革命 【免费下载链接】XMU-thesis A LaTeX template 项目地址: https://gitcode.com/gh_mirrors/xm/XMU-thesis 学术痛点:格式调试的隐形时间成本 学术写作中,格式排版往往成为研究者的隐形…

ExplorerPatcher Windows Defender误报解决方案:从诊断到优化的全方位指南

ExplorerPatcher Windows Defender误报解决方案:从诊断到优化的全方位指南 【免费下载链接】ExplorerPatcher 提升Windows操作系统下的工作环境 项目地址: https://gitcode.com/GitHub_Trending/ex/ExplorerPatcher 问题诊断:为什么安全软件会标记…

开源漫画阅读工具Venera:打造个性化沉浸式阅读体验

开源漫画阅读工具Venera:打造个性化沉浸式阅读体验 【免费下载链接】venera A comic app 项目地址: https://gitcode.com/gh_mirrors/ve/venera 作为一款备受欢迎的开源阅读器,Venera为漫画爱好者提供了丰富的功能和灵活的定制选项。无论是本地漫…

编程字体选择与开发者字体优化:打造高效编码视觉体验

编程字体选择与开发者字体优化:打造高效编码视觉体验 【免费下载链接】maple-font Maple Mono: Open source monospace font with round corner, ligatures and Nerd-Font for IDE and command line. 带连字和控制台图标的圆角等宽字体,中英文宽度完美2:…

DJI Payload SDK开发工具包:从认知到实战的无人机负载开发指南

DJI Payload SDK开发工具包:从认知到实战的无人机负载开发指南 【免费下载链接】Payload-SDK DJI Payload SDK Official Repository 项目地址: https://gitcode.com/gh_mirrors/pa/Payload-SDK DJI Payload SDK(Payload-SDK)是大疆官方…

水泵噪音消失术:5步驯服水冷系统的“尖叫心脏“

水泵噪音消失术:5步驯服水冷系统的"尖叫心脏" 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/…

支持中文界面吗?unet本地化配置实战教程

支持中文界面吗?UNet人像卡通化本地化配置实战教程 1. 开篇:你关心的,正是我们解决的 “支持中文界面吗?”——这是很多用户第一次打开这个工具时最直接的疑问。答案很明确:完全支持,且开箱即用。不需要改…

FDCAN环回模式测试:STM32H7快速理解方案

以下是对您提供的博文内容进行 深度润色与结构重构后的技术文章 。我以一位深耕嵌入式通信多年、常在一线调试FDCAN的工程师视角重写全文,摒弃模板化表达,强化逻辑连贯性、工程真实感与教学引导力。全文已去除所有AI痕迹,语言自然、节奏紧凑…

translategemma-4b-it多场景落地:支持教育、外贸、政务等6大领域

translategemma-4b-it多场景落地:支持教育、外贸、政务等6大领域 你有没有遇到过这样的情况:手头有一份英文政策文件,需要快速理解核心内容;或者收到一张外文商品说明书图片,却没法立刻看懂关键参数;又或者…

Lua字节码逆向完全指南:unluac实战应用与问题解决

Lua字节码逆向完全指南:unluac实战应用与问题解决 【免费下载链接】unluac fork from http://hg.code.sf.net/p/unluac/hgcode 项目地址: https://gitcode.com/gh_mirrors/un/unluac unluac作为一款专业的Lua字节码反编译工具,能够将编译后的Lua字…

QtUsb探索之旅:跨平台USB通信的技术解密与实战手记

QtUsb探索之旅:跨平台USB通信的技术解密与实战手记 【免费下载链接】QtUsb A cross-platform USB Module for Qt. 项目地址: https://gitcode.com/gh_mirrors/qt/QtUsb 在物联网设备与嵌入式系统的世界里,USB通信犹如连接数字世界的神经网络。当你…

3步实现数据自由:跨平台导出工具全解析

3步实现数据自由:跨平台导出工具全解析 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeChatMsg 数据…

模型合并与导出:Unsloth保存适配器完整流程

模型合并与导出:Unsloth保存适配器完整流程 在使用Unsloth完成LoRA微调后,最关键的工程落地环节不是训练本身,而是如何把训练好的适配器(adapter)与原始基座模型正确合并、导出为可独立部署的完整模型。很多开发者卡在…

学术排版效率工具:XMU-thesis LaTeX模板环境配置指南与格式问题解决方案

学术排版效率工具:XMU-thesis LaTeX模板环境配置指南与格式问题解决方案 【免费下载链接】XMU-thesis A LaTeX template 项目地址: https://gitcode.com/gh_mirrors/xm/XMU-thesis 在学术论文写作过程中,格式排版往往占据研究者大量时间与精力。…

茅台预约智能工具:从手动到自动的效率升级方案

茅台预约智能工具:从手动到自动的效率升级方案 【免费下载链接】campus-imaotai i茅台app自动预约,每日自动预约,支持docker一键部署 项目地址: https://gitcode.com/GitHub_Trending/ca/campus-imaotai 您是否还在每天定时打开i茅台A…

解锁高效小说离线阅读与管理新体验:从下载到跨设备同步的完整指南

解锁高效小说离线阅读与管理新体验:从下载到跨设备同步的完整指南 【免费下载链接】fanqienovel-downloader 下载番茄小说 项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 你是否曾遇到这样的困扰:通勤途中想看小说却遭遇网…