理想AI Talk第二季-重点信息总结

一、TL;DR

  1. 理想为什么要做自己的基模:座舱家庭等特殊VLM场景,deepseek/openai没有解决
  2. 理想的基模参数量:服务端-300B,VLencoder-32B/3.6B,日常工作使用-300B,VLA-4B
  3. 为什么自动驾驶可以达成:规则已知,类比机器人的自由度小,能够做的比人好
  4. VLA如何训练:基座模型pretrain、VLA后训练,强化学习训练,最后是agent
  5. 讲了很多公司的理念,我觉得挺好的,但是这部分就不在本文体现了

二、AI工具的三个分级

李想将AI分为3个阶段,分别是信息工具、辅助工具和生产工具,大多数人用来做信息工具使用,更进一步地,AI使用体验会变得更好,但此时他只是一个辅助工具,比如用来点外卖,但此时我们依旧在工作8小时,仍旧需要人的参与,最后如果变成生产工具,是否在产生有效的生产力,这也是用来衡量agent的做得好坏的标准

三、构建能力的3个过程

为了改变能力和提升能力:

  1. 这4个步骤是极简的人类最佳实践
  2. 理想在做VLA/李飞飞等在做研究都是这样

四、VLA为什么要做和怎么做

4.1 为什么要做

辅助驾驶需要把视觉和语料融合进去,openai/deepseek做好了Language,但是他们没有这些VL的数据,也没有这些场景和需求,因此也不会去解决这些问题,因此只能理想自己做

4.2 规模多大

理想同学用的是300B的模型,车端VLA是4B的模型,辅助驾驶的VL是32B/3.6B的模型。平产工作也是用的300B的模型

4.3 辅助驾驶的进化过程

第一阶段(rule):规则算法,整个模型规模只有几百万的参数量,因此加不同的规则,就像有轨电车

第二阶段((E2E+VLM):像人类的哺乳动物的智能运作的一种方式,动物园的猴子学习人类的各种行为去开车,但他对物理世界不理解,他对大部分的泛化性能是没问题的,但是特别复杂的场景搞不定

第三阶段(VLA):用3D视觉+2D视觉,有自己的Language和大脑去理解整个物理世界,具备自己的COT。真正的去执行这些理解

4.4 VLA如何训练

第一阶段:32B的基座VL 模型,与之前的差异是什么,需要放更多的视觉token,包括3Dtoken和更高清的2D token,放入驾驶的Language和视觉的联合语料,将对高精地图的理解也放进去,整体数据是vision的数据、Language的数据和VIsion/Language联合的数据,最后蒸馏下来的是3.6B的8个MOE车端模型

第二阶段是后训练,将其变为一个VLA模型,后训练仍然是一种强化学习,此时将模型规模扩展到4B左右,一方面是VLA,能够直接从inputt到输出,有着比较短的cot,另外做完action后,还会做一个4-8秒的diffusion轨迹和环境预测,特别像人去驾校学开车的过程

第三阶段:做强化训练,第一部分先做RLHF,带有人类反馈的强化学习,除了遵守交通规则以外,还需要增加大家的驾驶习惯,开的跟大家一样好,第二部分是纯粹的强化学习,拿着RL放在世界模型里面学习,目的就是比人开的更好,有3类的训练要求,G值判断舒适性的发聩、碰撞的反馈、交通事故的反馈,用这三个反馈来做强化学习

这三个要求完成以后,她就跟人类的驾驶习惯完全一样;像人类一样学习驾驶知识,这个是预训练,后训练相当于去驾校认真的学习开车,第三个环节相当于到社会上学开车和人类和社会环境做对齐。最后面, 人类通过自然语言的方式与VLA进行沟通,不再需要经过云端,如果是复杂的指令,则需要通过云端32B的模型先去 理解交通的一切,再交给VLA进行处理。他会像人类司机一样开车并且理解用户的问题,这个通过Agent来进行实现

效果如下所示:

五、为什么辅助驾驶可以做成

5.1 做成的原因

第一、交通领域是最首先讲清楚规则的,虽然复杂但是具备确定性,一辆车上路后基本上路线是确定的

第二、是车的控制,其实只具备3个tof,左右、前后和轻微的旋转,机器人上来就40多个自由度,挑战更大

第三:我们进行模仿学习是比较方便的,还能做更好的强化学习,交通规则、是否碰撞、舒适性这些是能够被表达出来的,因此能够进行更好的强化学习

5.2 为什么是理想做成

什么难度大:数据获取难度最大,是vision和action,车上装门了传感器可以收集到世界数据,但是需要人来开车收集到action数据

为什么其他公司做不了:

其它车企没有建立预训练的基模能力、后训练和强化学习的能力,强化学习的体系建立如何和人类司机的方法对齐,这些能力的建设决定辅助驾驶能否做成、

5.3 如何保证辅助驾驶安全

对齐来解决与人类一致性的问题

模型能力越强,胡来的可能性就越大,一个公司也是这样的,公司做大以后,需要职业性来进行约束。只需要雇佣职业司机而非赛车手了

端到端的仿真和快速闭环问题的能力

模型是一个黑盒子,做了整个物理世界的仿真,2万公里的费用是17-20万左右,现在是4k,基本上都是fpu的渲染,解决问题的效率提升很多,相同的问题复现几乎没有可能,但是仿真世界再世界模型里面是可以做到的。3天可以解决一个cornercase

超级对其团队。来保证安全的驾驶,建了 100 多人的团队,就像给 AI 司机上 “职业素养课”,教它遵守交通规则,养成好的驾驶习惯 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/81420.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TensorRT

TensorRT 下载 TensorRT 7.1.3.4 TAR压缩包,解压到安装目录: tar xzvf TensorRT-7.1.3.4.Ubuntu-16.04.x86_64-gnu.cuda-11.0.cudnn8.0.tar.gz 添加 TensorRT lib 到环境变量: gedit ~/.bashrc # 添加 export LD_LIBRARY_PATH$LD_LIBRARY_PAT…

【NGINX】 -9 nginx + tomcat实现的多级反向代理

文章目录 1、tomcat的安装 (centos版本)1.1 安装Java依赖环境1.2 安装tomcat 2、tomcat的虚拟主机的配置2.1 配置多级目录 3、利用nginx的反向代理实现将转发指向一个虚拟机3.1 nginx服务器的配置3.2 客户端配置 4、 反向多级代理代理服务器操作nginx 1 服务器nginx 2 服务器to…

基于requests_html的python爬虫

前言:今天介绍一个相对性能更高的爬虫库requests_html,会不会感觉和requests有点联系?是的。为什么开始不直接介绍呢?因为我觉得requests是最基本入门的东西,并且在学习过程中也能学到很多东西。我的python老师在介绍这…

【架构篇】架构类型解释

架构设计的本质:从模糊概念到系统化思维 摘要 “架构”是系统设计的灵魂,但许多人对它的理解仍停留在抽象层面。本文系统解析架构的8大核心维度,结合设计原则、案例与误区分析,帮助开发者建立从战略到落地的完整认知框架。 一、架…

用Python绘制梦幻星空

用Python绘制梦幻星空 在这篇教程中,我们将学习如何使用Python创建一个美丽的星空场景。我们将使用Python的图形库Pygame和随机库来创建闪烁的星星、流星和月亮,打造一个动态的夜空效果。 项目概述 我们将实现以下功能: 创建深蓝色的夜…

PyTorch循环神经网络(Pytotch)

文章目录 循环神经网络(RNN)简单的循环神经网络长短期记忆网络(LSTM)门控循环单元(GRU) 循环神经网络(RNN) 循环神经网络(RecurrentNeuralNetwork,RNN&#…

用算术右移实现逻辑右移及用逻辑右移实现算术右移

函数srl()用算术右移实现逻辑右移,函数sra()用逻辑右移实现算术右移。 程序代码 int sra(int x,int k); unsigned int srl(unsigned int x, int k);void main() {int rx1,k,x1;unsigned int rx2,x2;k3;x10x8777;x20x8777;rx1sra(x1, k);rx2srl(x2, k);while(1); }…

pojo层、dao层、service层、controller层的作用

在Java Web开发中,常见的分层架构(如Spring Boot项目)通常包含POJO层、DAO层、Service层和Controller层,各层职责明确,协同工作。以下是各层的作用及相互关系: 1. POJO层(Model/Entity层&#…

【Linux网络】五种IO模型与阻塞IO

IO 在Linux网络环境里,IO(Input/Output)指的是网络数据在系统与外部网络(像其他设备、服务器或者客户端)之间进行传输的过程。 它是网络编程和系统性能优化的核心内容。 IO :INPUT和OUTPUT(站…

入门OpenTelemetry——应用自动埋点

埋点 什么是埋点 埋点,本质就是在你的应用程序里,在重要位置插入采集代码,比如: 收集请求开始和结束的时间收集数据库查询时间收集函数调用链路信息收集异常信息 这些埋点数据(Trace、Metrics、Logs)被…

大数据场景下数据导出的架构演进与EasyExcel实战方案

一、引言:数据导出的演进驱动力 在数字化时代,数据导出功能已成为企业数据服务的基础能力。随着数据规模从GB级向TB级甚至PB级发展,传统导出方案面临三大核心挑战: ‌数据规模爆炸‌:单次导出数据量从万级到亿级的增长…

拓展运算符与数组解构赋值的区别

拓展运算符与数组解构赋值是ES6中用于处理数组的两种不同的特性,它们有以下区别: 概念与作用 • 拓展运算符:主要用于将数组展开成一系列独立的元素,或者将多个数组合并为一个数组,以及在函数调用时将数组作为可变参…

2025年全国青少年信息素养大赛初赛真题(算法创意实践挑战赛C++初中组:文末附答案)

2025年全国青少年信息素养大赛初赛真题(算法创意实践挑战赛C++初中组:文末附答案) 一、单项选择题(每题 5 分) C++ 程序流程控制的基本结构不包括以下哪项? A. 分支结构 B. 数据结构 C. 循环结构 D. 顺序结构 以下哪段代码能将数组 int a[4] = {2, 4, 6, 8}; 的所有元素变…

计算机视觉与深度学习 | Python实现EMD-CNN-LSTM时间序列预测(完整源码、数据、公式)

EMD-CNN-LSTM 1. 环境准备2. 数据生成(示例数据)3. EMD分解4. 数据预处理5. CNN-LSTM模型定义6. 模型训练7. 预测与重构8. 性能评估核心公式说明1. 经验模态分解(EMD)2. CNN-LSTM混合模型参数调优建议扩展方向典型输出示例以下是使用Python实现EMD-CNN-LSTM时间序列预测的完…

React 19中useContext不需要Provider了。

文章目录 前言一、React 19中useContext移除了Provider&#xff1f;二、使用步骤总结 前言 在 React 19 中&#xff0c;useContext 的使用方式有所更新。开发者现在可以直接使用 作为提供者&#xff0c;而不再需要使用 <Context.Provider>。这一变化简化了代码结构&…

单片机-STM32部分:14、SPI

飞书文档https://x509p6c8to.feishu.cn/wiki/VYYnwOc9Zi6ibFk36lYcPQdRnlf 什么是SPI SPI 是英语Serial Peripheral interface的缩写&#xff0c;顾名思义就是串行外围设备接口。是Motorola(摩托罗拉)首先在其MC68HCXX系列处理器上定义的。 SPI&#xff0c;是一种高速的&…

Vue 3 动态 ref 的使用方式(表格)

一、问题描述 先给大家简单介绍一下问题背景。我正在开发的项目中&#xff0c;有一个表格组件&#xff0c;其中一列是分镜描述&#xff0c;需要支持视频上传功能。用户可以为每一行的分镜描述上传对应的视频示例。然而&#xff0c;在实现过程中&#xff0c;出现了一个严重的问…

构建 TypoView:一个富文本样式预览工具的全流程记录

我正在参加CodeBuddy「首席试玩官」内容创作大赛&#xff0c;本文所使用的 CodeBuddy 免费下载链接&#xff1a;腾讯云代码助手 CodeBuddy - AI 时代的智能编程伙伴 在一次和 CodeBuddy 的日常交流中&#xff0c;我提出了一个构想&#xff1a;能不能帮我从零构建一个富文本样式…

AI:OpenAI论坛分享—《AI重塑未来:技术、经济与战略》

AI&#xff1a;OpenAI论坛分享—《AI重塑未来&#xff1a;技术、经济与战略》 导读&#xff1a;2025年4月24日&#xff0c;OpenAI论坛全面探讨了 AI 的发展趋势、技术范式、地缘政治影响以及对经济和社会的广泛影响。强调了 AI 的通用性、可扩展性和高级推理能力&#xff0c;以…

Bash fork 炸弹 —— :(){ :|: };:

&#x1f9e0; 什么是 Fork 炸弹&#xff1f; Fork 炸弹是一种拒绝服务&#xff08;DoS&#xff09;攻击技术&#xff0c;利用操作系统的 fork() 系统调用不断创建新进程&#xff0c;直到系统资源&#xff08;如进程表、CPU、内存&#xff09;被耗尽&#xff0c;从而使系统无法…