基于视觉的感知运动
两阶段方法:
流程:首先在完全可观测的马尔可夫决策过程(MDP) 中,利用特权信息训练一个强大的教师策略。然后,通过知识蒸馏,将教师策略的知识迁移给一个仅能使用真实传感器数据的学生策略。优点:教师策略提供了强大的监督信号,使学生策略的训练更稳定、更高效。缺点:学生策略的性能被教师策略所限制,无法超越老师。同时,教师策略依赖仿真中的特权信息,这些信息在现实中可能不准确或无法获取,可能导致错误的指导。
端到端方法:
流程:直接在部分可观测的马尔可夫决策过程(POMDP) 中,从传感器数据端到端地学习策略。优点:没有教师策略的限制,策略可以通过与环境交互自由探索,潜力上限更高。缺点:在POMDP中学习非常困难,训练过程不稳定,且由于缺乏强有力的监督,往往难以学习到高性能的策略。