01Introduction

文本主题

关于协作式多智能体强化学习的简介


文章目录

  • 文本主题
  • 一、MARL主要框架
    • 集中式训练与执行 (CTE)
    • 集中式训练分布式执行(CTDE)
    • 分布式训练与执行(DTE)
  • 二、Dec-POMDP
    • joint policy V and Q


一、MARL主要框架

MARL当前主流的框架分为三种:
centralized training and execution (CTE), centralized training for decentralized execution (CTDE),and decentralized training and execution (DTE)

集中式训练与执行 (CTE)

CTE在训练与执行过程假设能够获取全局的信息,即每个智能体的动作是基于所有智能体的信息得来的,因此可以通过单智能体的算法简单实现(维护一个联合的动作状态空间)。其优势在于协作能力相比于其他的框架效果更优,然而其联合状态空间会随着智能体的增加呈指数型上升造成学习困难,维度爆炸。

CTE仅仅用于合作性质的MARL

集中式训练分布式执行(CTDE)

CTDE是最常用的框架,在训练过程利用全局信息,执行过程每个智能体基于自身观测输出策略,相较于CTE具有良好的拓展性。

经常用于合作场景,也适用于竞争或混合场景

分布式训练与执行(DTE)

DTE在训练与执行过程不需要考虑全局的信息,基于每个智能体自身的信息做出决策,将其他智能体作为环境的一部分,因此任何人RL算法都能够实现DTE框架,然而会带来信用分配以及环境非稳定的问题。

能够用于合作、竞争以及混合场景

后续文章会详细展开每个框架的实现以及优缺点

二、Dec-POMDP

协作式MARL能够被表示为decentralized partially observable Markov decision process (Dec-POMDP),其被定义为多元组 { I , S , [ A i ] , T , R , [ O i ] , O , H , γ } \{I,S,[A_i],T,R,[O_i],O,H,\gamma\} {I,S,[Ai],T,R,[Oi],O,H,γ}
其中含义如下:
在这里插入图片描述

由于全局状态不能直接被观测,因此每个智能体remember自身的history obs以及actions是必要的,局部的历史观测对可以表示为: h i = { a i , 0 , o i , 0 , . . . . , a t , 0 , o t , 0 } h_i=\{a_{i,0},o_{i,0},....,a_{t,0},o_{t,0}\} hi={ai,0,oi,0,....,at,0,ot,0}

joint policy V and Q

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/80012.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小程序问题(记录版)

1、样式不生效 在h5上生效 但是 小程序上没反应 解决办法:解除组件样式隔离 1、isolated 表示启用样式隔离,在自定义组件内外,使用 class 指定的样式将不会相互影响(一般情况下的默认值) 2、apply-shared 表示页面 wxs…

排列组合算法:解锁数据世界的魔法钥匙

在 C 算法的奇幻世界里,排列和组合算法就像是两把神奇的魔法钥匙,能够帮我们解锁数据世界中各种复杂问题的大门。今天,作为 C 算法小白的我,就带大家一起走进排列和组合算法的奇妙天地。 排列算法:创造所有可能的顺序…

深入探讨 UDP 协议与多线程 HTTP 服务器

深入探讨 UDP 协议与多线程 HTTP 服务器 一、UDP 协议:高效但“不羁”的传输使者 UDP 协议以其独特的特性在网络传输中占据一席之地,适用于对实时性要求高、能容忍少量数据丢失的场景。 1. UDP 的特点解析 无连接:无需提前建立连接&…

引用第三方自定义组件——微信小程序学习笔记

1. 使用 npm 安装第三方包 1.1 下载安装Node.js 工具 下载地址:Node.js — Download Node.js 1.2 安装 npm 包 在项目空白处右键弹出菜单,选择“在外部终端窗口打开”,打开命令行工具,输入以下指令: 1> 初始化:…

数字化转型是往哪转?怎么转?

写在前面 当下数字化转型的风还在吹,企业数字化转型过程中以数字化项目满足业务化需求,已有相关数字化平台的话,就搞大平台、大系统,解决数据孤岛。政府数字化转型亦是如此,某些省市发了系统优化整合的文,旨…

嵌入式学习--江协51单片机day2

今天学的不多,内容为:静态、动态数码管的控制,模块化编程和lcd1602调试工具 数码管的控制 由于内部电路的设计,数码管每次只能显示一个位置的一个数字,动态的实现是基于不同位置的闪烁频率高。 P2_4,P2_3,P2_2控制位…

《数据结构:二叉搜索树(Binary Search Tree)》

文章目录 :red_circle:一、二叉搜索树的概念:red_circle:二、二叉搜索树的性能分析:red_circle:三、二叉搜索树的操作(一)插入(二)查找(三)删除 :red_circle:四、二叉搜索树的实现代码(一&#…

【Linux相关】实时查看Nvidia-smi使用情况

【Linux相关】 实时查看Nvidia-smi使用情况 文章目录 实时查看Nvidia-smi使用情况 实时查看Nvidia-smi使用情况 在本地终端执行下述语句 watch -n 1 nvidia-smi每一秒都会更新,将 1 改为其他数字可以满足不同需求

Kotlin密封类优化Android状态管理

Kotlin 的密封类(Sealed Class)确实是 Android 开发中管理复杂 UI 状态的利器。它通过类型安全的层次结构,让状态管理代码更加清晰简洁。让我们从实际开发场景出发,深入探讨其应用: 一、密封类核心优势 受限的类继承…

JavaWeb:SpringBootWeb快速入门

介绍 Spring SpringBoot 入门程序 需求 步骤 修改端口 1.新建application.yml #设置端口 server:port: 8081入门程序-分析 为什么main方法能启动web应用-内嵌tomcat 为什么tomcat能定位HelloController程序 请求先到DisPatcherServlet,根据路径转发 小结 1.…

Unity学习笔记二

文章目录 3D数学公共计算结构体Mathf常用成员三角函数 向量Vector3基本成员点乘叉乘插值运算 四元数引出基本概念Quaternion结构体成员四元数运算 更多的Mono延迟函数协同程序多线程相关协程概念辨析协程本体协程调度器 Resources资源动态加载特殊文件夹Resources同步加载Resou…

为什么Transformer推理需要做KV缓存

一、我们先来回忆一下在transformer中KV在哪里出现过,都有什么作用? α的计算过程: 这里引入三个向量: 图中的q为Query,用来匹配key值 图中的k为key,用来被Query匹配 图中的Value,是用来被进行加权平均的 由…

【大模型面试】大模型(LLMs)高频面题全面整理(★2025年5月最新版★)

【大模型面试】大模型(LLMs)高频面题全面整理(★2025年5月最新版★) 🌟 嗨,你好,我是 青松 ! 🌈 自小刺头深草里,而今渐觉出蓬蒿。 本笔记适合大模型初学者和…

JAVA:使用 iTextPDF 处理 PDF 的技术详解

1、简述 iTextPDF 是一个功能强大的 Java PDF 库,可以用来创建、修改和处理 PDF 文档。通过它,我们可以完成如生成 PDF、读取 PDF 内容、添加水印、合并 PDF 等多种操作。本篇博客将详细介绍 iTextPDF 的使用方法,并提供一些实践样例,帮助开发者快速上手。 样例代码: htt…

模态与非模态窗口及使用时的数据交互

模态窗口使用exec()方法显示,会阻塞父窗口,直到对话框关闭; 非模态对话框允许同时操作主窗口和设置窗口,使用show()。 模态和非模态的主要区别在于用户能否与父窗口交互,非模态更适合需要频繁切换的场景。非模态窗口需…

Docker进入MySQL之后如何用sql文件初始化数据

关闭Docker-compose.yml里面所有容器 docker compose -f docker_compose.yml down后台形式开启Docker-compose.yml所有容器 docker compose -f docker_compose.yml up -d罗列出所有启动过的(包括退出过的)容器 docker ps -a进入指定容器ID内部 docke…

MAC 地址

MAC地址(Media Access Control Address)是指网络设备在数据链路层使用的唯一标识符,也称为硬件地址或物理地址。它用于标识设备之间的网络通信,是网络适配器(如网卡、Wi-Fi适配器等)的唯一标识。每个网络设…

Redis 7.0中5种新特性及实战应用

Redis 7.0引入了多项革命性的新特性,不仅在性能和可靠性方面有所提升,更在功能和使用体验上有了质的飞跃。本文将介绍Redis 7.0的五大关键新特性,可以根据实际情况利用Redis 7.0的强大功能,构建更高效、更可靠的应用系统。 特性一…

PHP实现PDF自动签名

技术要点:在PDF中找到一个固定锚点,在需要放置图片的地方找到测试出锚点对应的XY位 // 使用了poppler方法,其他PDF库在获取坐标方面有各种问题,他的安装是在Linux底层,比在PHP项目中用Composer安装的库看上去更稳定&a…

中达瑞和便携式高光谱相机:珠宝鉴定领域的“光谱之眼”

在珠宝行业中,真伪鉴定始终是核心需求。随着合成技术与优化处理手段的日益精进,传统鉴定方法逐渐面临挑战。中达瑞和推出的便携式高光谱相机,凭借其独特的“图谱合一”技术,为珠宝真假鉴定提供了科学、高效且无损的解决方案&#…