01Introduction

文本主题

关于协作式多智能体强化学习的简介

文章目录

文本主题
一、MARL主要框架
- 集中式训练与执行 (CTE)
- 集中式训练分布式执行（CTDE）
- 分布式训练与执行（DTE）
二、Dec-POMDP
- joint policy V and Q

一、MARL主要框架

MARL当前主流的框架分为三种：
centralized training and execution (CTE), centralized training for decentralized execution (CTDE),and decentralized training and execution (DTE)

集中式训练与执行 (CTE)

CTE在训练与执行过程假设能够获取全局的信息，即每个智能体的动作是基于所有智能体的信息得来的，因此可以通过单智能体的算法简单实现（维护一个联合的动作状态空间）。其优势在于协作能力相比于其他的框架效果更优，然而其联合状态空间会随着智能体的增加呈指数型上升造成学习困难，维度爆炸。

CTE仅仅用于合作性质的MARL

集中式训练分布式执行（CTDE）

CTDE是最常用的框架，在训练过程利用全局信息，执行过程每个智能体基于自身观测输出策略，相较于CTE具有良好的拓展性。

经常用于合作场景，也适用于竞争或混合场景

分布式训练与执行（DTE）

DTE在训练与执行过程不需要考虑全局的信息，基于每个智能体自身的信息做出决策，将其他智能体作为环境的一部分，因此任何人RL算法都能够实现DTE框架，然而会带来信用分配以及环境非稳定的问题。

能够用于合作、竞争以及混合场景

后续文章会详细展开每个框架的实现以及优缺点

二、Dec-POMDP

协作式MARL能够被表示为decentralized partially observable Markov decision process (Dec-POMDP)，其被定义为多元组 $\{I,S,[A_i],T,R,[O_i],O,H,\gamma\}$
其中含义如下：
在这里插入图片描述

由于全局状态不能直接被观测，因此每个智能体remember自身的history obs以及actions是必要的，局部的历史观测对可以表示为： $h_i=\{a_{i,0},o_{i,0},....,a_{t,0},o_{t,0}\}$

joint policy V and Q

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/80012.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

01Introduction

文本主题

文章目录

一、MARL主要框架

集中式训练与执行 (CTE)

集中式训练分布式执行（CTDE）

分布式训练与执行（DTE）

二、Dec-POMDP

joint policy V and Q

相关文章

小程序问题(记录版)

排列组合算法：解锁数据世界的魔法钥匙

深入探讨 UDP 协议与多线程 HTTP 服务器

引用第三方自定义组件——微信小程序学习笔记

数字化转型是往哪转？怎么转？

嵌入式学习--江协51单片机day2

《数据结构：二叉搜索树（Binary Search Tree）》

【Linux相关】实时查看Nvidia-smi使用情况

Kotlin密封类优化Android状态管理

JavaWeb：SpringBootWeb快速入门

Unity学习笔记二

为什么Transformer推理需要做KV缓存

【大模型面试】大模型（LLMs）高频面题全面整理（★2025年5月最新版★）

JAVA：使用 iTextPDF 处理 PDF 的技术详解

模态与非模态窗口及使用时的数据交互

Docker进入MySQL之后如何用sql文件初始化数据

MAC 地址

Redis 7.0中5种新特性及实战应用

PHP实现PDF自动签名

中达瑞和便携式高光谱相机：珠宝鉴定领域的“光谱之眼”