下肢假肢的控制系统设计一直是个老大难问题。传统控制理论需要建立肢体和环境的精确数学模型,但现实世界可以不一样,比如说地面摩擦力时刻在变,坡度各不相同,患者随时可能绊一下。这就需要控制器具备自适应能力,能从失误中恢复,还得在没有显式编程的情况下习得自然的步态模式。
强化学习给出了一条思路:让假肢自己通过试错"学会"走路。但是标准RL算法有个毛病,它太贪心了,找到一种能用的移动方式就死守着不放,一旦外界条件变化,整个控制策略就非常容易崩盘。
这篇文章用Soft Actor-Critic(SAC)算法解决BipedalWalker-v3环境。但这不只是跑个游戏demo那么简单,更重要的是从生物工程视角解读整个问题:把神经网络对应到神经系统,把奖励函数对应到代谢效率。
https://avoid.overfit.cn/post/ab5860e7071441e9aab80e9876b2f45d