4.1 基于模型的强化学习(Model-based RL)

news/2025/10/13 4:26:09/文章来源:https://www.cnblogs.com/zzzxx/p/19137623

基于模型的强化学习(Model-based RL)


无模型与有模型方法的比较

modelbased2

在此前介绍的无模型(Model-free, MF)强化学习中,我们无需了解环境的动态规律即可开始训练策略:

\[p(s' | s, a), \quad r(s, a, s') \]

我们仅需采样状态转移 \((s, a, r, s')\) 来更新价值或策略网络。
这种方法的主要优点是:

  • 智能体在执行时无需“思考”:只需选择具有最高 Q 值或策略网络输出概率最高的动作(反射式行为);
  • 可以直接用于任意 MDP,无需事先知道环境的结构,可视为黑箱优化器。

然而,无模型方法的缺点是学习极其缓慢(样本复杂度高):由于没有任何先验假设,智能体必须完全依赖试错学习。

如果我们拥有一个环境模型(model),则可以提前规划(planning)

“如果我执行这个动作,会发生什么?”

通过这种方式,智能体能更高效地探索并避免显然错误的尝试。
这种利用环境模型进行决策的强化学习方法被称为 基于模型的强化学习(Model-based RL, MB)

例如:

  • 在国际象棋中,棋手会预先推演数步;
  • 在即时战略游戏中,学习世界模型是战略的一部分;
  • 动态规划(参见第 @sec-dp 节)就是典型的基于模型方法,因为它要求已知 \(p(s'|s,a)\)\(r(s,a,s')\) 来求解贝尔曼方程。

本章将介绍几种常见的 Model-based RL 算法,包括:

  • 模型预测控制(MPC)
  • 世界模型(World Models)
  • AlphaGo 系列方法

我们首先区分两类模型强化学习:

  1. 规划算法(MPC)
  2. 基于模型增强的无模型方法(Dyna)

在 AlphaGo 部分,我们还将讨论“已知模型 vs. 学习模型”的区别。


动态模型的学习(Learning a Dynamics Model)

在理论上,学习环境模型并不复杂。
我们只需通过随机策略或专家策略收集足够多的转移样本 \((s, a, r, s')\),并用监督学习的方式训练一个预测下一个状态和奖励的模型:

learningdynamics

\[M(s, a) = (s', r) \]

该模型被称为:

  • 动态模型(dynamics model)
  • 转移模型(transition model)
  • 前向模型(forward model)

它回答的问题是:

“如果我执行这个动作,会发生什么?”

模型可以是:

  • 确定性(通常用神经网络建模);
  • 随机性(使用高斯过程、混合密度网络或递归状态空间模型)。

任何类型的监督学习方法都可用于此任务。

一旦训练出足够精确的动态模型,就可以使用该模型生成虚拟轨迹(rollouts),即想象中的状态序列。

假设初始状态为 \(s_0\) 且策略为 \(\pi\),则可以通过模型不断推演:

\[s_0 \xrightarrow[\pi]{} a_0 \xrightarrow[M]{} s_1 \xrightarrow[\pi]{} a_1 \xrightarrow[M]{} s_2 \xrightarrow[M]{} \ldots \xrightarrow[M]{} s_T \]

在获得完整轨迹 \(\tau\) 后,可以计算回报 \(R(\tau)\),仿佛真实地与环境交互。
此时,模型本身就相当于环境,可以在该模型上优化策略。


在“想象”中训练(Training in Imagination)

  1. 使用随机或专家策略 \(b\) 收集转移样本 \((s, a, r, s')\)
  2. 构建数据集 \(\mathcal{D} = \{(s_k, a_k, r_k, s'_k)\}_k\)
  3. 使用监督学习训练动态模型 \(M(s, a) = (s', r)\)
  4. 使用训练好的模型生成虚拟轨迹 \(\tau\)
  5. 在这些轨迹上优化策略 \(\pi\)

任何强化学习算法(包括 model-free 方法)都可以在模型上进行策略优化:

\[\mathcal{J}(\pi) = \mathbb{E}_{\tau \sim \rho_\pi}[R(\tau)] \]

模型训练阶段的采样复杂度是主要瓶颈。
一旦模型收敛,策略优化阶段几乎不需要额外的环境交互。
对于那些物理仿真昂贵而模型预测极快的任务(如机器人控制),
该方法可显著降低实验成本。


局限性

基于模型的强化学习虽然高效,但存在两大挑战:

  1. 模型误差积累
    模型预测误差会在长时间推演中不断放大,尤其在随机环境中;
    对于长轨迹任务,误差可能导致策略训练方向完全错误。

  2. 数据覆盖不足
    若收集的数据集未包含关键转移(例如稀疏奖励区域),
    模型将无法准确预测这些关键状态,导致策略次优。
    在极端情况下,为训练出高精度模型所需的数据量甚至超过直接训练一个无模型智能体。

因此,Model-based RL 通常结合 Model-free 元素,形成 混合型架构(如 Dyna、MBPO、Dreamer 等),
以平衡样本效率与稳定性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/935845.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3.8 最大熵强化学习(Maximum Entropy RL, SAC)

最大熵强化学习(Maximum Entropy RL, SAC)背景 此前的所有强化学习方法均专注于最大化回报(return),这对应于强化学习中的利用(exploitation):我们只关心最优策略。 而探索(exploration)通常由额外机制实现,…

乐理 -06 和弦, 和声

#和弦 与 和声..#三和弦大三和弦 与 小三和弦 感情。 多数情况下

3.7 带经验回放的演员–评论家算法(Actor-Critic with Experience Replay, ACER)

带经验回放的演员–评论家算法(Actor-Critic with Experience Replay, ACER)概述 前述自然梯度方法(如 TRPO、PPO)均为随机演员–评论家(stochastic actor–critic)结构,因此属于 on-policy 学习。 相比之下,o…

3.6 策略优化(TRPO 与 PPO)

策略优化(TRPO 与 PPO)信赖域策略优化(Trust Region Policy Optimization, TRPO) 基本原理 @Schulman2015 将自然梯度的思想推广到非线性函数逼近(如深度网络),提出了 TRPO。 该方法已在实践中被 PPO(Proximal…

3.5 自然梯度(Natural Gradients)

自然梯度(Natural Gradients)学习稳定性 此前介绍的深度强化学习方法均使用随机梯度下降(SGD)或其变体(RMSProp、Adam 等)来训练神经网络函数逼近器。 其基本思想是:沿损失函数梯度的反方向(或策略梯度的正方向…

3.3 离策略演员–评论家(Off-policy Actor–Critic)

离策略演员–评论家(Off-policy Actor–Critic)On-policy 与 Off-policy 演员–评论家算法通常是on-policy(同策略)的:用于探索环境的动作必须由当前策略生成,否则评论者(Critic)提供的反馈(优势项)会在策略…

3.4 深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)

深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)背景与动机 在前面的策略梯度方法中,演员(Actor)产生的是随机策略 \(\pi_\theta(s)\),即输出动作的概率分布(离散动作)或分布参数(连续动作)。…

20232325 2025-2026-1 《网络与系统攻防技术》实验一实验报告

一、实验内容 本次实验以Linux可执行文件pwn1为对象,核心目标是通过三种技术手段篡改程序执行流程,触发原本不可运行的getShell函数或自定义shellcode,具体如下: (一)手工修改可执行文件,直接跳转到getShell函数…

MINIX 3 值得仔细研究 from Tanenbaum A., Bos H. Modern Operating Systems 5ed 2023

10.1.6 MINIX One property that all modern UNIX systems have is that they are large and complicated, in a sense the antithesis of the original idea behind UNIX. Even if the source code were freely avail…

乐理 -06 相对音感 绝对音感

相对音感 判断两个音之间的距离练习绝对音感 无参照音下判断

【光照】UnityURP[天空盒]原理与[动态天空盒]实现

《Unity URP动态天空盒技术解析》专栏文章摘要:URP天空盒采用立方体贴图技术,通过六面HDR图像构成全景环境,作为无限远背景始终跟随摄像机。核心技术包括:1.基于主光源方向的昼夜动态切换(smoothstep平滑过渡);…

实验1 现代c++初体验

task 1.cpp1 #include<iostream>2 #include<string>3 #include<vector>4 #include<algorithm>5 6 template<typename T>7 void output(const T& c);8 9 void test1(); 10 void test…

Hadoop概念以及安装

Hadoop概论Hadoop是一个由 Apache基金会所开发的分布式系统基础架构。 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说, Hadoop通常是指一个更广泛的概念 Hadoop生态圈。Hadoop三大发行版本:Apache、…

presto配置

presto启动时默认配置文件目录在安装目录下的etc下每个节点的配置 在etc下创建node.properties文件,配置如下: node.environment=production node.id=ffffffff-ffff-ffff-ffff-ffffffffffff node.data-dir=/var/pres…

Hadoop--MapReduce

dr.who是通过http连接的默认用户,可以直接在配置文件里面修改为当前用户,重启之后就可以使用当前用户在页面里面对文件进行相关操作。 MapReduce概述 分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应…

Hadoop--yarn

Yarn资源调度器 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Y****arn基本架构 YARN主要由ResourceM…

AI元人文构想框架体系

AI元人文构想框架体系 一、核心概念与理论基础 1.1 基本定义 AI元人文构想:一种革命性AI发展范式,旨在构建能够理解、协调并增强人类复杂价值体系的新型人工智能系统。其核心特征包括:从"优化工具"转变…

[DAX/数据分析表达式/Power BI] DAX 查询视图语言 = `Data Analysis eXpressions`(数据分析表达式) = 编程式数据分析语言

0 序Power BI1 概述:DAX 查询视图语言 = Data Analysis eXpressions(数据分析表达式) = 编程式数据分析语言 for Power BI / SSAS / ... DAX是什么?DAX 全称 Data Analysis eXpressions(数据分析表达式); 其是面向 …

Hadoop--HDFS-HA高可用

high avilability HA****概述 1)所谓HA(High Availablity),即高可用(7*24小时不中断服务)。 2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 3)Hadoop2.…

Hadoop--HDFS

注意机器启动过之后,同步的时候不要同步data文件夹一次写入,多次读出,不支持文件修改。适合数据分析,不适合网盘应用 分布式存储,文件系统。 优点:高容错性。多复制,丢失自动恢复 适合大数据,数据以及文件规模…