自驾下半场，评测的重要性会超过训练......

作者丨Michael Zhou
编辑 | 自动驾驶之心
原文链接丨https://zhuanlan.zhihu.com/p/1997370128237629983

点击下方卡片，关注“自动驾驶之心”公众号

戳我->领取自动驾驶近30个方向学习路线

>>国内首个自动驾驶全栈交流社区：自动驾驶之心知‍识星球（戳我）

本文已获转载授权，转载请联系原文作者

如果说大模型的下半场是把重心从「解决问题」转向「定义问题」，那自动驾驶也是，评估的重要性会超过训练。

上半场是训练方法和模型，代表是BEV系列，端到端如UniAD，各种各样的快慢系统VLA，强调的是创造新的感知范式和新的整体方法，能够泛化的解决大部分问题。而下半场需要解决各种corner case比如人车混行，以及不同性能间的平衡比如效率和安全。模型的训练过程存在不确定性，不是一个线性过程，下半场是如何进行有效评估出模型真正的迭代，开发新的评估方式或任务，以衡量真实世界的效用，也就是打造真正能用的产品。

评估如果把真实人类纳入环节（如 Chatbot Arena、人类驾驶体验MPI），则效率地下；如果引入用户模拟（如 tau-bench、仿真评测），则不够真实。

任务需要结合基础模型进行RL fine-tune。三个比较重要的因素：先验、环境、算法。

要搞懂RL先验，我们可以把它拆解成定义、获取方式、工作原理、收益逻辑这四个核心部分，最后再解释它如何让RL实验避免“从零开始”。

一、什么是RL先验？

先验（Prior）本身是一个统计学概念，指在没有观测到新数据之前，我们对事物的已有知识或假设。放到强化学习（RL）里，RL先验就是在智能体开始和环境交互学习之前，注入的先验知识、经验或偏好。这些先验不是凭空来的，而是来自任务相关的领域知识、人类经验、其他任务的迁移学习结果等。它的核心作用是给智能体一个“初始起点”，而不是让智能体像一张白纸一样，完全靠随机试错探索环境。

举个例子：训练机器人走路，如果没有先验，机器人可能会先随机乱晃（比如先尝试用头着地）；如果注入“双腿交替迈步更稳定”的先验，机器人一开始就会朝着正确的方向探索。

二、 RL先验是怎么获取的？

获取先验的方式，本质是把“外部知识”转化为智能体可利用的形式，常见有5类：

人类专家经验直接把人类的操作策略转化为先验。比如训练自动驾驶RL智能体，可以把人类司机的驾驶轨迹、刹车/油门操作数据作为先验；训练游戏AI，可以导入人类高手的操作序列。实现形式：行为克隆（Behavior Cloning）、模仿学习（Imitation Learning）的预训练模型。
领域知识与规则从任务的物理规律、逻辑规则中提炼先验。比如训练机械臂抓取物体，先验可以是“机械臂关节角度范围”“物体重心位置会影响抓取稳定性”；训练下棋AI，先验可以是“棋子的合法走法”“中心位置更重要”。实现形式：硬编码规则（比如限制智能体的动作空间）、奖励函数的设计（比如给符合物理规律的动作额外加分）。
迁移学习与预训练把从相似任务中学到的知识迁移过来当作先验。比如先训练智能体“抓取方块”，再把这个模型作为先验，去训练“抓取杯子”；先在模拟器里训练无人机飞行，再把模拟器的模型作为先验，迁移到真实物理世界。实现形式：预训练的神经网络权重、跨任务的状态表征（Representation）迁移。
离线数据（Offline RL）利用已有的、非交互的离线数据集作为先验。比如收集大量的“用户-环境”交互日志（如推荐系统的用户点击记录），智能体先在离线数据上学习基本策略，再上线做少量微调。实现形式：离线RL的预训练，用离线数据初始化价值函数（Value Function）或策略网络（Policy Network）。
任务分解与子任务先验把复杂任务拆成子任务，先训练子任务的策略，再把子任务策略组合成整体任务的先验。比如训练机器人“开门”，先分别训练“走到门边”“伸手握把手”“转动把手”这三个子任务的先验，再整合起来。

三、 RL先验是怎么工作的？如何取得收益？

1. 先验的工作机制

先验不是直接“告诉”智能体该怎么做，而是通过约束探索方向、优化初始化参数、调整奖励信号这三种方式，引导学习过程：

约束探索空间：没有先验时，智能体的动作是完全随机的；有先验后，智能体只会在先验允许的“合理范围”内探索。比如用人类驾驶数据做先验，自动驾驶智能体不会去尝试“逆行”这种明显错误的动作。
优化模型初始化：RL的核心是优化策略网络和价值网络，先验可以直接提供更优的初始权重。比如用预训练的迁移模型初始化网络，比随机初始化的网络更接近最优解，后续只需要小步调整。
修正奖励函数：通过先验设计“奖励塑形（Reward Shaping）”，给符合先验知识的行为更高的奖励。比如训练机器人走路，给“双腿交替迈步”的动作加额外奖励，加速收敛。

2. 先验的收益来源

先验的收益，本质是降低学习的“成本”，具体体现在3个方面：

减少探索步数，加速收敛：避免了大量无效的随机试错，智能体从一开始就朝着正确方向走，能更快学到最优策略。比如没有先验的RL可能需要10万步收敛，注入先验后可能只需要1万步。
降低样本复杂度：RL的一大痛点是“样本效率低”（需要大量和环境的交互数据），先验可以减少对实时交互数据的依赖，尤其适合真实环境交互成本高的场景（比如机器人、自动驾驶，撞一次车成本很高）。
提升策略的安全性与稳定性：先验可以避免智能体探索危险动作。比如训练医疗机器人，先验可以约束它“不做伤害病人的动作”，防止试错过程中出现安全事故。

四、 RL实验怎么用先验避免从零开始？

“从零开始”的RL，相当于智能体的初始策略是随机的，价值函数是无意义的，完全靠“试错-反馈”循环学习。而用先验的核心，是给智能体一个“非随机的初始状态”，具体步骤可以概括为：

选择匹配任务的先验类型根据任务特点选先验来源：比如有人类专家数据，就用模仿学习；有相似任务模型，就用迁移学习；有明确规则，就用规则约束。
将先验转化为RL框架可利用的形式

若是数据类先验（如人类操作数据）：用行为克隆训练一个基础策略，作为RL的初始策略；
若是规则类先验：硬编码动作约束（比如限制机械臂关节角度），或设计奖励塑形函数；
若是迁移类先验：把预训练模型的权重，直接加载到RL的策略网络中，作为初始化参数。

在RL训练中融合先验，逐步微调先验不是“一劳永逸”的，智能体在初始先验的基础上，和环境交互获取新的反馈，逐步修正先验策略，最终得到比先验更优的策略。比如：预训练的自动驾驶模型可能在模拟器里表现好，但真实道路有突发情况，智能体就会在预训练先验的基础上，学习应对突发情况的策略。
避免先验的“负迁移”不是所有先验都是有用的，如果先验和目标任务不匹配，反而会误导学习（比如用“抓取方块”的先验去训练“抓取气球”，反而会降低效率）。因此需要验证先验的适配性，必要时做先验的轻量化或微调。
强化学习（RL）先验应用典型案例清单
强化学习先验指将领域知识、经验规则、预训练模型或结构化信息融入RL的训练与决策流程，以此提升算法收敛速度、稳定性与实际任务性能。以下是机器人、游戏、推荐系统三个领域的典型应用案例。
一、机器人领域
机器人任务通常存在物理约束多、试错成本高、样本获取困难的特点，融入先验知识能有效降低训练难度。
1. 机械臂精准操作：基于运动学先验的轨迹优化
- 先验类型：机器人运动学模型、关节角度约束先验
- 具体用法：在机械臂抓取、组装等任务中，直接将机械臂的正/逆运动学模型作为先验，限制RL智能体的动作空间（如关节角速度范围、末端执行器位姿范围）。例如，在训练机械臂抓取物体时，利用运动学先验排除关节超限、机械臂自碰撞的无效动作，避免训练过程中出现物理损伤，同时加速收敛。
- 典型案例：DeepMind与波士顿动力合作的机械臂操控项目，通过融入机械臂动力学先验，实现了复杂物体的自适应抓取。
2. 移动机器人导航：基于地图与路径规划先验
- 先验类型：环境拓扑地图先验、传统路径规划算法（A*、Dijkstra）输出先验
- 具体用法：在未知或半未知环境导航中，将已知的地图拓扑结构（如障碍物位置、可行走区域）作为先验，初始化RL智能体的状态空间；或者将传统路径规划算法的局部路径作为RL的动作建议，智能体在建议基础上进行微调，平衡全局最优与局部避障。
- 典型案例：自动驾驶中的端到端RL控制，融入车道线检测、交通规则（限速、红绿灯）等先验，提升决策安全性。
3. 人形机器人步态控制：基于生物力学先验
- 先验类型：人类/动物步态周期先验、关节力矩约束先验
- 具体用法：在训练人形机器人行走、奔跑时，引入生物力学中的步态相位划分（支撑相、摆动相）先验，将RL的动作决策与步态相位绑定；同时加入关节力矩上限先验，防止关节过载。例如，MIT的Cheetah机器人利用动物步态先验，结合RL实现了高速稳定奔跑。
二、游戏领域
游戏是RL的经典应用场景，先验知识可来自游戏规则、人类玩家经验、游戏状态特征，核心目标是快速超越人类水平。
1. 棋盘类游戏（围棋/象棋）：基于棋谱与局部估值先验
- 先验类型：人类专家棋谱先验、局部棋形估值先验
- 具体用法：以AlphaGo为代表，将大量人类专家棋谱输入预训练网络，得到落子位置的先验概率分布，RL智能体在训练时结合先验概率与蒙特卡洛树搜索（MCTS）的价值评估，减少搜索空间。例如，AlphaGo的策略网络会输出每个落子点的先验概率，MCTS基于该概率进行采样，大幅提升搜索效率。
- 典型案例：AlphaGo Zero 虽然去除了人类棋谱先验，但通过自对弈积累的经验形成了更强的“自生成先验”；象棋AI“天天象棋”则融入了残局库先验，提升残局阶段的决策精度。
2. 电子竞技类游戏（星际争霸/王者荣耀）：基于战术与角色技能先验
- 先验类型：游戏战术规则先验、角色技能机制先验、人类职业选手操作序列先验
- 具体用法：这类游戏具有高维度状态空间和多智能体协作特点，先验知识用于拆解复杂任务。例如，在《星际争霸II》中，RL智能体融入“暴兵-科技-扩张”的战术流程先验，将全局任务分解为资源采集、部队训练、战场指挥等子任务；同时利用角色技能冷却时间、伤害公式等先验，优化技能释放时机。
- 典型案例：DeepMind的《星际争霸II》AI Agent，通过融入战术先验和多智能体协作先验，达到了人类职业选手水平；王者荣耀AI“绝悟”则结合英雄连招先验，实现了精准的技能衔接。
3. 雅达利小游戏（Breakout/Pong）：基于状态特征先验
- 先验类型：游戏目标导向先验、关键状态特征提取先验
- 具体用法：在雅达利游戏中，将“最大化得分”“避免失败”的目标作为奖励函数先验，同时提取关键状态特征（如小球位置、挡板位置）作为RL的输入，而非直接使用原始像素。例如，训练Breakout游戏AI时，引入“小球反弹角度与挡板位置关联”的先验，加速智能体掌握击球策略。
三、推荐系统领域
推荐系统的核心是用户-物品匹配，先验知识可来自用户行为历史、物品属性、领域规则，解决RL在推荐场景中“冷启动”和“奖励延迟”问题。
1. 用户冷启动：基于人口统计学与物品属性先验
- 先验类型：用户人口统计学特征先验（年龄、性别、地域）、物品类别属性先验
- 具体用法：针对新用户，无历史行为数据时，利用人口统计学先验将用户划分到相似用户群体，将群体的偏好作为RL智能体的初始推荐策略；同时融入物品类别先验（如电影的类型、书籍的题材），限制推荐动作空间，避免向新用户推荐无关物品。
- 典型案例：Netflix的推荐系统，利用用户注册时的属性先验和物品标签先验，缓解冷启动阶段的推荐效果不佳问题。
2. 长短期兴趣匹配：基于用户行为序列先验
- 先验类型：用户短期行为序列先验（近1小时点击/收藏）、长期兴趣偏好先验
- 具体用法：将RL的状态空间设计为融合用户长短期行为先验的特征向量，例如，用LSTM提取用户短期行为序列先验，用用户历史长期偏好（如长期喜欢的电影类型）作为正则项，约束RL智能体的推荐决策，平衡“探索新物品”和“匹配已知兴趣”。
- 典型案例：淘宝的个性化推荐，融入用户短期浏览商品序列先验和长期购买品类先验，提升推荐的准确率和多样性。
3. 合规与体验约束：基于领域规则先验
- 先验类型：推荐合规规则先验（如未成年人内容限制）、用户体验约束先验（如避免重复推荐）
- 具体用法：在RL推荐的动作选择阶段，加入规则先验过滤，例如，排除违规物品、限制同一物品的推荐频率、保证推荐列表的品类多样性；同时将“用户留存时长”“点击率”等即时奖励与“长期复购率”的延迟奖励结合，利用业务经验先验设计奖励函数。
- 典型案例：抖音的短视频推荐，融入内容合规先验和用户停留时长先验，优化推荐策略的长期收益。
自动驾驶之心
3DGS理论与算法实战课程！
知识星球交流社区