深度强化学习算法的参数更新时机
深度强化学习中往往涉及到多个神经网络来拟合策略函数、值函数等,什么时候更新参数因算法而异,与具体算法架构/算法思想紧密相关。
| 算法 | 参数更新时机 | 架构 | 
|---|---|---|
| DQN | 先收集一定经验,然后每步更新 | Off Policy Value-Based | 
| DDPG | 先收集一定经验,然后每步更新 | Off Policy Actor-Critic | 
| TD3 | 先收集一定经验,然后每步更新 | Off Policy Actor-Critic | 
| SAC | 先收集一定经验,然后每步更新 | Off Policy Actor-Critic | 
| REINFORCE | 每步更新 | On Policy Policy Gradient | 
| VPG | 每个episode更新一次 | On Policy Actor-Critic | 
| A2C/A3C | 每步更新 | On Policy Actor-Critic | 
| PPO | 每个episode采集结束后,集中抽样更新多次 | On Policy Actor-Critic | 
| TRPO | 每个episode采集结束后,集中抽样更新多次 | On Policy Actor-Critic |