二、基于直接策略搜索的强化学习方法详细解释

news/2025/11/4 15:09:57/文章来源:https://www.cnblogs.com/kaoyujiang/p/19190386

直接策略搜索(Direct Policy Search)是强化学习的三大核心分支之一,与“基于值函数的方法”最大区别在于:不通过价值函数间接推导策略,而是直接将策略参数化,通过优化参数最大化长期累积奖励。其核心逻辑是“定义策略的数学形式→计算奖励对参数的梯度→沿梯度方向更新参数”,适用于连续行动空间、高维决策等场景,以下从核心原理、主流算法、关键技术、适用场景四个维度展开。

一、核心原理:策略参数化与梯度上升

直接策略搜索的底层逻辑围绕“策略参数化”和“目标函数优化”展开,是理解所有此类方法的基础。

1. 策略参数化:用数学模型表示策略

策略的本质是“从状态到动作的映射”,直接策略搜索通过参数化函数将这一映射显性表达,记为 π_θ(a|s),其中:

  • θ:策略的参数(如神经网络的权重、线性模型的系数),是优化的核心对象;
  • s:输入的当前状态(如机器人的传感器数据、游戏画面像素);
  • a:输出的动作(离散空间为“选每个动作的概率”,连续空间为“动作的概率分布”)。

两种常见的策略参数化形式:

  • 离散行动空间(如游戏的上下左右操作)
    用softmax函数输出每个动作的概率,公式为:
    π_θ(a|s) = e(φ(s,a)T * θ) / Σ(从a'∈A)e(φ(s,a')T * θ)
    其中 φ(s,a) 是“状态-动作对”的特征向量(如状态的one-hot编码+动作的标识),确保输出概率和为1。

  • 连续行动空间(如机器人关节角度、无人机飞行速度)
    用高斯分布表示动作的概率,公式为:
    π_θ(a|s) ~ N(μ_θ(s), σ_θ²(s))
    其中 μ_θ(s)(均值)和 σ_θ(s)(方差)由参数 θ 控制的函数输出,动作从该高斯分布中采样得到。

2. 目标函数:最大化长期累积奖励的期望

直接策略搜索的优化目标是“让参数 θ 对应的策略 π_θ,能获得最大的长期累积奖励期望”,目标函数定义为:
J(θ) = E_πθ[ Σ(从t=0到∞)γ^t * r_t ]

  • E_πθ[·]:对策略 π_θ 采样的所有轨迹取期望(消除动作和状态转移的随机性影响);
  • Σ(从t=0到∞)γ^t * r_t:单条轨迹的长期累积奖励(γ 为折现因子,控制未来奖励的权重);
  • r_t:第 t 步的即时奖励(如机器人完成任务得+10分,碰撞得-5分)。

3. 优化方法:梯度上升最大化目标函数

由于目标函数 J(θ) 是参数 θ 的函数,优化核心是计算 J(θ) 对 θ 的梯度 ∇θ J(θ),并沿梯度方向更新 θ(梯度上升,因目标是“最大化”奖励),更新公式为:
θ_{k+1} = θ_k + α * ∇θ J(θ_k)

  • α:学习率(控制每次参数更新的幅度,避免更新过快导致策略震荡);
  • ∇θ J(θ):梯度向量,每个元素表示“该参数变化对奖励的影响方向和大小”——正梯度表示参数增大时奖励上升,需增大该参数;负梯度则相反。

关键:策略梯度定理(计算梯度的核心工具)

直接计算 ∇θ J(θ) 难度大,策略梯度定理将其转化为可通过采样计算的形式:
∇θ J(θ) = E_πθ[ Σ(从t=0到∞)∇θ log π_θ(a_t|s_t) * G_t ]

  • ∇θ log π_θ(a_t|s_t):策略的“对数梯度”——反映“参数 θ 变化时,选当前动作 a_t 的概率变化率”,决定梯度的方向;
  • G_t = Σ(从k=t到∞)γ^(k-t) * r_k:第 t 步的“累积奖励(回报)”——反映“从当前步开始的长期收益”,决定梯度的权重(收益越高,该动作对应的参数更新幅度越大)。

二、主流算法:从基础到进阶

直接策略搜索的算法围绕“降低梯度估计方差”“提升训练稳定性”“提高样本效率”三个方向演进,以下是最核心的三类算法:

1. REINFORCE算法(基础策略梯度方法)

REINFORCE是最简单的直接策略搜索算法,属于“同策略(On-policy)”方法(即必须用当前策略采样数据,且仅用这些数据更新当前策略),核心是“通过完整轨迹采样计算梯度”。

详细训练步骤:

  1. 初始化参数:随机初始化策略参数 θ₀(如神经网络的权重初始化为小的随机值)。
  2. 采样完整轨迹:用当前策略 π_θk 与环境交互,采集一条完整轨迹 τ = (s₀,a₀,r₀,s₁,a₁,r₁,...,s_T,a_T,r_T)(T 为轨迹终止时刻)。
  3. 计算每步的累积奖励 G_t:对轨迹中每个时刻 t,计算从 t 到 T 的累积奖励:
    G_t = r_t + γr_{t+1} + γ²r_{t+2} + ... + γ^(T-t)*r_T。
  4. 估计策略梯度:对轨迹中每个时刻 t,计算 ∇θ log π_θ(a_t|s_t) * G_t,取所有时刻的平均值作为梯度估计 ∇̂θ J(θ):
    ∇̂θ J(θ) = (1/T) * Σ(从t=0到T-1)∇θ log π_θ(a_t|s_t) * G_t。
  5. 更新策略参数:沿梯度方向更新 θ:
    θ_{k+1} = θ_k + α * ∇̂θ J(θ)。
  6. 迭代收敛:重复步骤2-5,直到目标函数 J(θ) 不再提升(如连续100轮轨迹的平均奖励稳定)。

优缺点:

  • 优点:实现简单,无需设计价值函数,天然支持连续行动空间;
  • 缺点:梯度估计方差大(依赖单条轨迹的 G_t,不同轨迹的 G_t 波动大),样本效率低(同策略需频繁采样新轨迹,旧数据无法复用)。

2. A2C算法(优势演员-评论员,降低方差)

A2C(Advantage Actor-Critic)是“策略梯度”与“值函数评估”的结合,核心改进是用“优势函数”替代REINFORCE中的 G_t,大幅降低梯度估计方差,同时引入“并行采样”提升样本效率。

核心改进:优势函数 A^π(s_t,a_t)

优势函数定义为“当前动作的价值与状态平均价值的差值”,公式为:
A^π(s_t,a_t) = Q^π(s_t,a_t) - V^π(s_t)

  • Q^π(s_t,a_t):状态 s_t 选动作 a_t 的行动价值(即该动作的长期收益);
  • V^π(s_t):状态 s_t 的状态价值(即该状态下所有动作的平均长期收益);
  • 含义:“选动作 a_t 比选当前策略下的平均动作好多少”——正优势表示动作优于平均,需增大选该动作的概率;负优势则相反,需减小概率。

详细训练步骤(双网络结构:Actor + Critic):

  1. 初始化双网络参数
    • Actor网络(策略网络):参数 θ,输出策略 π_θ(a|s);
    • Critic网络(价值网络):参数 φ,输出状态价值 V_φ(s)(近似 V^π(s))。
  2. 并行采样多轨迹:用多个线程(如4个线程)同时与环境交互,每个线程用Actor的策略 π_θ 采样一条轨迹,记录 (s_t,a_t,r_t,s_{t+1})(无需完整轨迹,单步数据即可)。
  3. 计算优势函数 A_t
    • 用Critic网络估计 V_φ(s_t) 和 V_φ(s_{t+1});
    • 用TD目标(即时奖励+未来价值)近似 Q^π(s_t,a_t):Q_t ≈ r_t + γ*V_φ(s_{t+1});
    • 计算优势函数:A_t = Q_t - V_φ(s_t)。
  4. 更新双网络
    • 更新Actor(策略梯度):用优势函数计算梯度,最大化目标函数:
      ∇θ J(θ) ≈ E[ ∇θ log π_θ(a_t|s_t) * A_t ],沿梯度更新 θ;
    • 更新Critic(价值优化):最小化 Q_t 与 V_φ(s_t) 的均方误差(MSE),优化价值估计:
      L(φ) = E[ (Q_t - V_φ(s_t))² ],用梯度下降更新 φ。
  5. 迭代收敛:重复步骤2-4,直到Actor的策略奖励稳定、Critic的价值估计误差小于阈值。

优缺点:

  • 优点:优势函数大幅降低梯度方差,并行采样提升样本效率,训练更稳定;
  • 缺点:需协调Actor和Critic的训练节奏(如Critic的价值估计偏差会影响Actor更新),双网络参数调优复杂度高于REINFORCE。

3. PPO算法(近端策略优化,主流算法)

PPO(Proximal Policy Optimization)是当前工业界最常用的直接策略搜索算法,核心改进是“限制策略更新的步长”,避免因参数变化过大导致策略突变(如从“擅长避障”突然变成“频繁碰撞”),同时支持“离线多轮优化”提升样本效率。

核心改进:剪辑目标函数(限制策略更新幅度)

PPO通过“策略比率”和“剪辑操作”控制新旧策略的差异,目标函数定义为:
L(θ) = E[ min( ρ_t(θ)A_t, clip(ρ_t(θ), 1-ε, 1+ε)A_t ) ]

  • ρ_t(θ) = π_θ(a_t|s_t) / π_θold(a_t|s_t):策略比率——新策略 π_θ 与旧策略 π_θold 选当前动作 a_t 的概率比值;
  • θold:更新前的旧策略参数(固定,用于计算策略比率);
  • ε:剪辑系数(通常取0.1或0.2),限制 ρ_t(θ) 在 [1-ε, 1+ε] 范围内;
  • clip(·):剪辑操作——当 ρ_t(θ) > 1+ε 时,剪辑为 1+ε;当 ρ_t(θ) < 1-ε 时,剪辑为 1-ε;
  • 含义:若新策略选动作的概率远大于旧策略(ρ_t > 1+ε),则强制降低更新幅度,避免策略突变;若远小于旧策略(ρ_t < 1-ε),同样强制限制,保证策略更新“在安全范围内”。

详细训练步骤(离线优化+单网络/双网络均可):

  1. 采样数据并固定旧策略:用当前策略 π_θold 采样一批数据(如1000个单步样本 (s_t,a_t,r_t,A_t),优势函数 A_t 可提前用Critic计算),固定 θold。
  2. 多轮离线优化策略:在固定的采样数据上,通过梯度上升最大化剪辑目标函数 L(θ),更新新策略参数 θ(可进行3-10轮优化,无需重新采样,提升样本效率)。
  3. 更新Critic网络(可选):若用双网络结构,同步更新Critic的价值估计(同A2C的Critic更新逻辑)。
  4. 迭代更新旧策略:将优化后的新策略参数 θ 赋值给 θold,重复步骤1-3。

优缺点:

  • 优点:训练稳定性极高(剪辑操作避免策略突变),样本效率高(离线多轮优化),实现简单(单网络也可运行),支持离散/连续行动空间,是机器人控制、自动驾驶等场景的首选;
  • 缺点:对剪辑系数 ε 轻微敏感(需调参,通常0.1-0.2效果较好),离散空间性能略逊于基于值函数的DQN类方法。

三、关键技术:支撑算法性能的核心手段

直接策略搜索的性能依赖以下关键技术,解决“梯度方差大”“样本效率低”“训练不稳定”等问题:

1. 优势函数中心化(降低方差)

对计算出的优势函数 A_t 进行“中心化”处理(减去所有样本的优势函数均值),公式为:
A_t^centered = A_t - (1/N) * Σ(从i=1到N)A_i

  • 作用:消除优势函数的全局偏移,进一步降低梯度估计的方差(如所有样本的优势函数均为正,中心化后部分变为负,梯度方向更精准)。

2. 经验回放(提升样本效率)

将历史采样的样本 (s_t,a_t,r_t,s_{t+1}) 存储在“经验回放池”中,更新策略时随机从池中采样数据(而非仅用当前策略的新数据)。

  • 作用:打破样本的时间相关性(如连续步的状态动作高度相关,随机采样降低相关性),复用旧数据,提升样本效率(尤其适用于PPO等离线优化算法)。

3. 学习率衰减(稳定训练)

训练过程中逐渐降低学习率 α(如初始 α=0.001,每100轮衰减为原来的0.9)。

  • 作用:训练初期用较大学习率快速探索参数空间,后期用较小学习率精细调整,避免参数震荡,确保收敛到稳定的最优策略。

四、适用场景与对比

1. 适用场景

  • 连续行动空间任务:如机器人关节角度控制(需输出连续的角度值)、无人机飞行速度调节(需输出连续的速度值)——直接策略搜索天然支持连续空间,无需像值函数方法那样离散化动作;
  • 高维行动空间任务:如多智能体协作(每个智能体有多个动作,总行动空间维度高)——值函数方法需枚举所有动作计算最大值,效率低,而直接策略搜索可直接输出高维动作分布;
  • 对策略稳定性要求高的场景:如工业机器人装配(需精准、稳定的动作,不能频繁调整策略)——PPO的剪辑操作保证策略更新平稳,适合此类场景。

2. 与基于值函数的方法对比

对比维度 直接策略搜索(如PPO) 基于值函数的方法(如DQN)
策略表示 直接参数化策略 π_θ(a s)
行动空间支持 天然支持连续/高维空间 更适合离散空间(连续空间需额外处理)
训练稳定性 高(如PPO的剪辑操作) 中等(易因价值估计偏差导致策略震荡)
样本效率 中高(PPO支持离线多轮优化) 中(DQN需频繁采样新数据)
实现复杂度 中等(PPO单网络即可运行) 中等(DQN需经验回放+目标网络)

总结

直接策略搜索的核心是“直接优化策略参数,通过梯度上升最大化奖励”,从基础的REINFORCE(简单但方差大),到A2C(用优势函数降方差),再到PPO(用剪辑操作保稳定),算法不断朝着“低方差、高效率、强稳定”演进。其最大优势是天然支持连续行动空间,是复杂控制任务(如机器人、自动驾驶)的主流选择,也是理解Actor-Critic等混合方法的基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/955724.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年智能天窗十大品牌推荐,前景智能天窗操作方便吗

在建筑智能化浪潮下,智能天窗已成为提升空间舒适度与节能效率的关键产品。面对市场上功能各异的智能天窗品牌,消费者往往困惑于前景智能天窗操作方便吗、前景智能天窗智能控制灵敏吗、前景智能天窗透光性如何等核心问…

DeepCode:把论文和想法变成代码的 AI 工具

DeepCode 是香港大学开源的 AI 编码工具,通过多智能体协作实现论文转代码、需求转网站、描述转后端三大功能。采用 MIT 协议,已获 7900+ 星标。适合科研人员、独立开发者和技术学习者使用,能有效提升开发效率。看论…

2025年哈尔滨家装行业口碑榜:为尚装饰的安全保障如何

在哈尔滨装修市场套路多、水太深的痛点下,业主挑选靠谱家装公司时,往往围绕为尚装饰的安全保障如何、市场口碑如何、性价比怎么样这三大核心疑问展开。2025年,我们结合业主真实评价、工程质量抽检数据与服务履约率,…

从零开始学Flink:事件驱动

本文系统讲解 Apache Flink 的事件驱动编程模型,涵盖 ProcessFunction、定时器与状态、事件时间与 Watermark、与窗口的对比以及最佳实践。在实时计算领域,很多业务逻辑天然适合“事件驱动”模式:当事件到达时触发处…

Combo-box Control - ComboExo example

Combo-box Control - ComboExo exampleCreate a new ComboExo using VS2013MFC Application Wizard design dialog eventComboExo example - visualc The original example was written using VC6.0; now we will rewr…

吴恩达深度学习课程二: 改善深层神经网络 第一周:深度学习的实践(六)梯度现象和梯度检验

此分类用于记录吴恩达深度学习课程的学习笔记。 课程相关信息链接如下:原课程视频链接:[双语字幕]吴恩达深度学习deeplearning.ai github课程资料,含课件与笔记:吴恩达深度学习教学资料 课程配套练习(中英)与答案…

终端里的 AI 编程助手:OpenCode 使用指南

OpenCode 是开源的终端 AI 编码助手,支持 Claude、GPT-4 等模型,可在命令行完成代码编写、Bug 修复、项目重构。提供原生终端界面和上下文感知能力,适合全栈开发者和终端用户使用。写代码时遇到过这种情况吗? 想问…

P3209 [HNOI2010] 平面图判定

之前写 \(O(n^2)\) 图省事,结果考试考了单 \(\log\),把自己给坑害了(又不想写代码)。 首先发现这个过程本质上在干什么,钦定一些区间不能相同列车,那么可以 2-SAT,也可以二分图染色,这里选择二分图染色好做些。…

Tita项目管理:中小型企业的最佳选择

在中小企业探寻合适项目管理工具的征程中,Tita项目管理以其独特优势脱颖而出,为企业项目全流程管理难题提供了优质解法。 契合多样需求,精准适配项目类型与规模 中小企业的项目或简单灵活,或复杂多元,Tita皆能应对…

2025年卷绕铁心定制厂家权威推荐榜单:卷铁心/开口卷铁芯/卷铁芯源头厂家精选

在电力设备与电子元器件能效要求日益提升的今天,一款高精度的卷绕铁心已成为决定变压器性能与效率的核心部件。 卷绕铁心作为变压器、互感器等电磁元件的核心导磁部件,其材料性能与加工精度直接影响着设备的能效与稳…

2025年柔性门制造商权威推荐榜单:柔性堆积门/柔性提升门/工业柔性门源头厂家精选

随着工业建筑标准升级和物流效率需求提升,柔性门作为关键工业设施组成部分,市场规模持续扩大。行业数据显示,2024年我国工业门类产品年产值突破120亿元,其中柔性门类产品年均增长率达15%,在冷链物流、洁净车间等应…

WPF根本布局容器与控件

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

强化学习基础概括

强化学习基础知识(含公式与详细解释) 强化学习(Reinforcement Learning, RL)的核心是“智能体(Agent)在与环境(Environment)的交互中,通过试错学习最优策略(Policy),以最大化长期累积奖励(Reward)”。以…

uni-app x开发商城系统,资讯详情页面数据渲染

一、概述 上一篇文章,已经实现了资讯列表跳转详情并传递id 接下来实现,资讯详情页面数据渲染 效果如下:二、资讯详情页面结构 修改 pages/news/news-detail文件,固定一行数据<template><view><!-- …

2025 成都律师咨询最新推荐榜权威发布:聚焦刑事辩护与民商事领域,资深团队与新锐品牌全景解析

引言 随着法律服务需求的持续增长,市场上服务质量参差不齐的问题日益凸显,部分机构专业能力不足、流程透明度低,导致当事人权益难以得到充分保障。为破解选择难题,行业协会联合第三方评估机构开展专项测评,形成最…

vue3中英文转换方案(使用 Vue I18n)

一、安装依赖npm install vue-i18n@next ant-design-vue 二、配置Vue I18n 1、创建 i18n 配置文件 src/i18n/index.js import { createI18n } from vue-i18n import antdZhCN from ant-design-vue/es/locale/zh_CN im…

2025 小企业破局指南:人力资源管理软件如何用 智能轻量 重构管理效能

2025 小企业破局指南:人力资源管理软件如何用 "智能轻量" 重构管理效能在数字化转型的浪潮中,小企业正面临着 "人力少、任务重、合规严" 的三重管理困境:HR 往往身兼数职,却要应对招聘筛选、考…

2025年高邮履带式升降机出租供应商权威推荐榜单:铜陵履带式升降机/高邮履带式升降机/履带式液压升降机源头厂家精选

在建筑业与物流业持续发展的推动下,履带式升降机租赁市场呈现稳定增长态势。据2025年工程机械行业数据显示,中国高空作业平台租赁市场规模已突破280亿元,其中履带式升降机占比约18%。 随着现代化施工项目对设备要求…

2025 年包装机生产厂家最新推荐排行榜:聚焦吨袋、阀口袋、小袋全自动码垛等设备,优选综合实力强服务优企业

引言 当前自动化包装设备行业快速发展,但企业选购包装机时面临诸多困境。不少厂家技术研发能力不足,难以满足钢铁、化工、食品等不同行业的个性化需求;部分厂家售后服务滞后,设备故障后无法及时维修,严重影响生产…

2025年重庆3.7米小卡服务商权威推荐榜单:重庆3.8米小卡/重庆4.2米轻卡/重庆货车源头服务商精选

在重庆这座山水之城物流需求持续增长的背景下,一辆可靠的3.7米小卡已成为城市配送“最后一公里”运输效率的关键保障。 作为城市物流配送的主力车型,3.7米小卡的可靠性与经济性直接影响着商贸流通的效率与成本。据20…