文本主题
关于协作式多智能体强化学习的简介
文章目录
- 文本主题
- 一、MARL主要框架
- 集中式训练与执行 (CTE)
- 集中式训练分布式执行(CTDE)
- 分布式训练与执行(DTE)
- 二、Dec-POMDP
- joint policy V and Q
一、MARL主要框架
MARL当前主流的框架分为三种:
centralized training and execution (CTE), centralized training for decentralized execution (CTDE),and decentralized training and execution (DTE)
集中式训练与执行 (CTE)
CTE在训练与执行过程假设能够获取全局的信息,即每个智能体的动作是基于所有智能体的信息得来的,因此可以通过单智能体的算法简单实现(维护一个联合的动作状态空间)。其优势在于协作能力相比于其他的框架效果更优,然而其联合状态空间会随着智能体的增加呈指数型上升造成学习困难,维度爆炸。
CTE仅仅用于合作性质的MARL
集中式训练分布式执行(CTDE)
CTDE是最常用的框架,在训练过程利用全局信息,执行过程每个智能体基于自身观测输出策略,相较于CTE具有良好的拓展性。
经常用于合作场景,也适用于竞争或混合场景
分布式训练与执行(DTE)
DTE在训练与执行过程不需要考虑全局的信息,基于每个智能体自身的信息做出决策,将其他智能体作为环境的一部分,因此任何人RL算法都能够实现DTE框架,然而会带来信用分配以及环境非稳定的问题。
能够用于合作、竞争以及混合场景
后续文章会详细展开每个框架的实现以及优缺点
二、Dec-POMDP
协作式MARL能够被表示为decentralized partially observable Markov decision process (Dec-POMDP),其被定义为多元组 { I , S , [ A i ] , T , R , [ O i ] , O , H , γ } \{I,S,[A_i],T,R,[O_i],O,H,\gamma\} {I,S,[Ai],T,R,[Oi],O,H,γ}
其中含义如下:
由于全局状态不能直接被观测,因此每个智能体remember自身的history obs以及actions是必要的,局部的历史观测对可以表示为: h i = { a i , 0 , o i , 0 , . . . . , a t , 0 , o t , 0 } h_i=\{a_{i,0},o_{i,0},....,a_{t,0},o_{t,0}\} hi={ai,0,oi,0,....,at,0,ot,0}