多模态大语言模型(MLLMs)的发展推动了基于 LLM 的自动驾驶研究,以利用其强大的推理能力。然而,利用多模态大语言模型(MLLMs)强大的推理能力来改进planning具有挑战性,因为这需要超越二维推理的完整三维情境感知能力。因为这不单单需要 2D 推理还需要完整的 3D 场景感知能力。为了解决这一挑战,我们的工作提出了 OmniDrive,这是一个全面的框架,旨在
实现智能体模型与三维驾驶任务之间的强对齐
。我们的框架从一个新颖的 3D 多模态大语言模型(MLLM)架构 开始,该架构利用稀疏查询
(sparse queries)将视觉表示提升并压缩到三维空间,然后再将其输入到大语言模型(LLM)中。这种基于查询的表示方法使我们能够联合编码动态物体(如车辆、行人)和静态地图元素(如交通车道),从而为三维空间中的感知-动作对齐提供一个简化的世界模型。此外,我们提出了一个新的基准测试,包含全面的视觉问答(VQA)任务,涵盖场景描述、交通规则理解、三维定