作者丨Michael Zhou
编辑 | 自动驾驶之心
原文链接丨https://zhuanlan.zhihu.com/p/1997370128237629983
点击下方卡片,关注“自动驾驶之心”公众号
戳我->领取自动驾驶近30个方向学习路线
>>国内首个自动驾驶全栈交流社区:自动驾驶之心知识星球(戳我)
本文已获转载授权,转载请联系原文作者
如果说大模型的下半场是把重心从「解决问题」转向「定义问题」,那自动驾驶也是,评估的重要性会超过训练。
上半场是训练方法和模型,代表是BEV系列,端到端如UniAD,各种各样的快慢系统VLA,强调的是创造新的感知范式和新的整体方法,能够泛化的解决大部分问题。 而下半场需要解决各种corner case比如人车混行,以及不同性能间的平衡比如效率和安全。 模型的训练过程存在不确定性,不是一个线性过程,下半场是如何进行有效评估出模型真正的迭代,开发新的评估方式或任务,以衡量真实世界的效用,也就是打造真正能用的产品。
评估如果把真实人类纳入环节(如 Chatbot Arena、人类驾驶体验MPI),则效率地下;如果引入用户模拟(如 tau-bench、仿真评测),则不够真实。
任务需要结合基础模型进行RL fine-tune。三个比较重要的因素:先验、环境、算法。
要搞懂RL先验,我们可以把它拆解成定义、获取方式、工作原理、收益逻辑这四个核心部分,最后再解释它如何让RL实验避免“从零开始”。
一、 什么是RL先验?
先验(Prior)本身是一个统计学概念,指在没有观测到新数据之前,我们对事物的已有知识或假设。 放到强化学习(RL)里,RL先验就是在智能体开始和环境交互学习之前,注入的先验知识、经验或偏好。这些先验不是凭空来的,而是来自任务相关的领域知识、人类经验、其他任务的迁移学习结果等。 它的核心作用是给智能体一个“初始起点”,而不是让智能体像一张白纸一样,完全靠随机试错探索环境。
举个例子:训练机器人走路,如果没有先验,机器人可能会先随机乱晃(比如先尝试用头着地);如果注入“双腿交替迈步更稳定”的先验,机器人一开始就会朝着正确的方向探索。
二、 RL先验是怎么获取的?
获取先验的方式,本质是把“外部知识”转化为智能体可利用的形式,常见有5类:
人类专家经验直接把人类的操作策略转化为先验。比如训练自动驾驶RL智能体,可以把人类司机的驾驶轨迹、刹车/油门操作数据作为先验;训练游戏AI,可以导入人类高手的操作序列。 实现形式:行为克隆(Behavior Cloning)、模仿学习(Imitation Learning)的预训练模型。
领域知识与规则从任务的物理规律、逻辑规则中提炼先验。比如训练机械臂抓取物体,先验可以是“机械臂关节角度范围”“物体重心位置会影响抓取稳定性”;训练下棋AI,先验可以是“棋子的合法走法”“中心位置更重要”。 实现形式:硬编码规则(比如限制智能体的动作空间)、奖励函数的设计(比如给符合物理规律的动作额外加分)。
迁移学习与预训练把从相似任务中学到的知识迁移过来当作先验。比如先训练智能体“抓取方块”,再把这个模型作为先验,去训练“抓取杯子”;先在模拟器里训练无人机飞行,再把模拟器的模型作为先验,迁移到真实物理世界。 实现形式:预训练的神经网络权重、跨任务的状态表征(Representation)迁移。
离线数据(Offline RL)利用已有的、非交互的离线数据集作为先验。比如收集大量的“用户-环境”交互日志(如推荐系统的用户点击记录),智能体先在离线数据上学习基本策略,再上线做少量微调。 实现形式:离线RL的预训练,用离线数据初始化价值函数(Value Function)或策略网络(Policy Network)。
任务分解与子任务先验把复杂任务拆成子任务,先训练子任务的策略,再把子任务策略组合成整体任务的先验。比如训练机器人“开门”,先分别训练“走到门边”“伸手握把手”“转动把手”这三个子任务的先验,再整合起来。
三、 RL先验是怎么工作的?如何取得收益?
1. 先验的工作机制
先验不是直接“告诉”智能体该怎么做,而是通过约束探索方向、优化初始化参数、调整奖励信号这三种方式,引导学习过程:
约束探索空间:没有先验时,智能体的动作是完全随机的;有先验后,智能体只会在先验允许的“合理范围”内探索。比如用人类驾驶数据做先验,自动驾驶智能体不会去尝试“逆行”这种明显错误的动作。
优化模型初始化:RL的核心是优化策略网络和价值网络,先验可以直接提供更优的初始权重。比如用预训练的迁移模型初始化网络,比随机初始化的网络更接近最优解,后续只需要小步调整。
修正奖励函数:通过先验设计“奖励塑形(Reward Shaping)”,给符合先验知识的行为更高的奖励。比如训练机器人走路,给“双腿交替迈步”的动作加额外奖励,加速收敛。
2. 先验的收益来源
先验的收益,本质是降低学习的“成本”,具体体现在3个方面:
减少探索步数,加速收敛:避免了大量无效的随机试错,智能体从一开始就朝着正确方向走,能更快学到最优策略。比如没有先验的RL可能需要10万步收敛,注入先验后可能只需要1万步。
降低样本复杂度:RL的一大痛点是“样本效率低”(需要大量和环境的交互数据),先验可以减少对实时交互数据的依赖,尤其适合真实环境交互成本高的场景(比如机器人、自动驾驶,撞一次车成本很高)。
提升策略的安全性与稳定性:先验可以避免智能体探索危险动作。比如训练医疗机器人,先验可以约束它“不做伤害病人的动作”,防止试错过程中出现安全事故。
四、 RL实验怎么用先验避免从零开始?
“从零开始”的RL,相当于智能体的初始策略是随机的,价值函数是无意义的,完全靠“试错-反馈”循环学习。而用先验的核心,是给智能体一个“非随机的初始状态”,具体步骤可以概括为:
选择匹配任务的先验类型根据任务特点选先验来源:比如有人类专家数据,就用模仿学习;有相似任务模型,就用迁移学习;有明确规则,就用规则约束。
将先验转化为RL框架可利用的形式
若是数据类先验(如人类操作数据):用行为克隆训练一个基础策略,作为RL的初始策略;
若是规则类先验:硬编码动作约束(比如限制机械臂关节角度),或设计奖励塑形函数;
若是迁移类先验:把预训练模型的权重,直接加载到RL的策略网络中,作为初始化参数。
在RL训练中融合先验,逐步微调先验不是“一劳永逸”的,智能体在初始先验的基础上,和环境交互获取新的反馈,逐步修正先验策略,最终得到比先验更优的策略。 比如:预训练的自动驾驶模型可能在模拟器里表现好,但真实道路有突发情况,智能体就会在预训练先验的基础上,学习应对突发情况的策略。
避免先验的“负迁移”不是所有先验都是有用的,如果先验和目标任务不匹配,反而会误导学习(比如用“抓取方块”的先验去训练“抓取气球”,反而会降低效率)。因此需要验证先验的适配性,必要时做先验的轻量化或微调。
强化学习(RL)先验应用典型案例清单
强化学习先验指将领域知识、经验规则、预训练模型或结构化信息融入RL的训练与决策流程,以此提升算法收敛速度、稳定性与实际任务性能。以下是机器人、游戏、推荐系统三个领域的典型应用案例。
一、 机器人领域
机器人任务通常存在物理约束多、试错成本高、样本获取困难的特点,融入先验知识能有效降低训练难度。
1. 机械臂精准操作:基于运动学先验的轨迹优化
先验类型:机器人运动学模型、关节角度约束先验
具体用法:在机械臂抓取、组装等任务中,直接将机械臂的正/逆运动学模型作为先验,限制RL智能体的动作空间(如关节角速度范围、末端执行器位姿范围)。例如,在训练机械臂抓取物体时,利用运动学先验排除关节超限、机械臂自碰撞的无效动作,避免训练过程中出现物理损伤,同时加速收敛。
典型案例:DeepMind与波士顿动力合作的机械臂操控项目,通过融入机械臂动力学先验,实现了复杂物体的自适应抓取。
2. 移动机器人导航:基于地图与路径规划先验
先验类型:环境拓扑地图先验、传统路径规划算法(A*、Dijkstra)输出先验
具体用法:在未知或半未知环境导航中,将已知的地图拓扑结构(如障碍物位置、可行走区域)作为先验,初始化RL智能体的状态空间;或者将传统路径规划算法的局部路径作为RL的动作建议,智能体在建议基础上进行微调,平衡全局最优与局部避障。
典型案例:自动驾驶中的端到端RL控制,融入车道线检测、交通规则(限速、红绿灯)等先验,提升决策安全性。
3. 人形机器人步态控制:基于生物力学先验
先验类型:人类/动物步态周期先验、关节力矩约束先验
具体用法:在训练人形机器人行走、奔跑时,引入生物力学中的步态相位划分(支撑相、摆动相)先验,将RL的动作决策与步态相位绑定;同时加入关节力矩上限先验,防止关节过载。例如,MIT的Cheetah机器人利用动物步态先验,结合RL实现了高速稳定奔跑。
二、 游戏领域
游戏是RL的经典应用场景,先验知识可来自游戏规则、人类玩家经验、游戏状态特征,核心目标是快速超越人类水平。
1. 棋盘类游戏(围棋/象棋):基于棋谱与局部估值先验
先验类型:人类专家棋谱先验、局部棋形估值先验
具体用法:以AlphaGo为代表,将大量人类专家棋谱输入预训练网络,得到落子位置的先验概率分布,RL智能体在训练时结合先验概率与蒙特卡洛树搜索(MCTS)的价值评估,减少搜索空间。例如,AlphaGo的策略网络会输出每个落子点的先验概率,MCTS基于该概率进行采样,大幅提升搜索效率。
典型案例:AlphaGo Zero 虽然去除了人类棋谱先验,但通过自对弈积累的经验形成了更强的“自生成先验”;象棋AI“天天象棋”则融入了残局库先验,提升残局阶段的决策精度。
2. 电子竞技类游戏(星际争霸/王者荣耀):基于战术与角色技能先验
先验类型:游戏战术规则先验、角色技能机制先验、人类职业选手操作序列先验
具体用法:这类游戏具有高维度状态空间和多智能体协作特点,先验知识用于拆解复杂任务。例如,在《星际争霸II》中,RL智能体融入“暴兵-科技-扩张”的战术流程先验,将全局任务分解为资源采集、部队训练、战场指挥等子任务;同时利用角色技能冷却时间、伤害公式等先验,优化技能释放时机。
典型案例:DeepMind的《星际争霸II》AI Agent,通过融入战术先验和多智能体协作先验,达到了人类职业选手水平;王者荣耀AI“绝悟”则结合英雄连招先验,实现了精准的技能衔接。
3. 雅达利小游戏(Breakout/Pong):基于状态特征先验
先验类型:游戏目标导向先验、关键状态特征提取先验
具体用法:在雅达利游戏中,将“最大化得分”“避免失败”的目标作为奖励函数先验,同时提取关键状态特征(如小球位置、挡板位置)作为RL的输入,而非直接使用原始像素。例如,训练Breakout游戏AI时,引入“小球反弹角度与挡板位置关联”的先验,加速智能体掌握击球策略。
三、 推荐系统领域
推荐系统的核心是用户-物品匹配,先验知识可来自用户行为历史、物品属性、领域规则,解决RL在推荐场景中“冷启动”和“奖励延迟”问题。
1. 用户冷启动:基于人口统计学与物品属性先验
先验类型:用户人口统计学特征先验(年龄、性别、地域)、物品类别属性先验
具体用法:针对新用户,无历史行为数据时,利用人口统计学先验将用户划分到相似用户群体,将群体的偏好作为RL智能体的初始推荐策略;同时融入物品类别先验(如电影的类型、书籍的题材),限制推荐动作空间,避免向新用户推荐无关物品。
典型案例:Netflix的推荐系统,利用用户注册时的属性先验和物品标签先验,缓解冷启动阶段的推荐效果不佳问题。
2. 长短期兴趣匹配:基于用户行为序列先验
先验类型:用户短期行为序列先验(近1小时点击/收藏)、长期兴趣偏好先验
具体用法:将RL的状态空间设计为融合用户长短期行为先验的特征向量,例如,用LSTM提取用户短期行为序列先验,用用户历史长期偏好(如长期喜欢的电影类型)作为正则项,约束RL智能体的推荐决策,平衡“探索新物品”和“匹配已知兴趣”。
典型案例:淘宝的个性化推荐,融入用户短期浏览商品序列先验和长期购买品类先验,提升推荐的准确率和多样性。
3. 合规与体验约束:基于领域规则先验
先验类型:推荐合规规则先验(如未成年人内容限制)、用户体验约束先验(如避免重复推荐)
具体用法:在RL推荐的动作选择阶段,加入规则先验过滤,例如,排除违规物品、限制同一物品的推荐频率、保证推荐列表的品类多样性;同时将“用户留存时长”“点击率”等即时奖励与“长期复购率”的延迟奖励结合,利用业务经验先验设计奖励函数。
典型案例:抖音的短视频推荐,融入内容合规先验和用户停留时长先验,优化推荐策略的长期收益。
自动驾驶之心
3DGS理论与算法实战课程!
知识星球交流社区