强化学习入门:马尔科夫奖励过程

文章目录

  • 前言
  • 1、组成部分
  • 2、应用例子
  • 3、马尔科夫奖励过程
  • 总结


前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》

1、组成部分

  强化学习其实主要包含下面五个部分:我将通过一个训练狗护食的例子来说明各部分含义。
在这里插入图片描述
 智能体是狗,环境就是周围一切,狗当然能够观察环境,而且还能采取吃与不吃的动作。而我作为训狗师会给予其奖励揍他或者给肉。
 1)当我去拿狗饭盆时,狗观察到我的手,采取了龇牙咧嘴的动作,结果奖励就是一巴掌;
 2)当我去拿狗饭盆时,狗观察到我的手,采取了眼睁睁看着我拿走饭盆的动作,结果奖励它继续吃;

2、应用例子

 其实上述范式在生活中到处都有应用,如下图所示:强化学习基本是很多学科的交集。
在这里插入图片描述
 实际应用领域:国际象棋ALphaGo,DeepSeek-R1,学习成绩,大脑多巴胺系统,等等,不一而足。

3、马尔科夫奖励过程

 在上一篇介绍了马尔科夫过程,核心包括有限状态空间和概率转移矩阵。而马尔科夫奖励过程则是在状态转移之间,引入了一个奖励矩阵,形状也是N*N:比如第i行第j列就表示从状态i到状态j所得到的奖励。
 在引入奖励矩阵后,引入一个核心概念:回报!其数学定义为:
G t = R t + 1 + γ R t + 2 + . . . = ∑ i = 1 ∞ R t + k + 1 G_t = R_{t+1} + {\gamma}R_{t+2} + ... = \sum_{i=1}^{\infty}R_{t+k+1} Gt=Rt+1+γRt+2+...=i=1Rt+k+1

 表达的意思是:在t时刻状态下,在接下来所有时刻所取得的回报和。其中 γ \gamma γ就是折扣因子,取值范围[0~1],越接近1,则考虑越多的未来。
 由于采取的可能性很多,因此, G t G_t Gt的变化范围很大,很难优化。但回报的期望却是能拿到的,即状态的价值
V ( s ) = E [ G ∣ S t = s ] V(s) = E[G|S_t=s] V(s)=E[GSt=s]
 表达含义是:在t时刻,对于每一个状态s条件下,所得到回报G的平均值。

总结

 本篇只是介绍下强化学习的回报和状态价值定义,让读者能从感性角度对其有个理解,下篇介绍在马尔科夫奖励过程中引入动作和策略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/81144.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

腾讯开源实时语音大模型VITA-audio,92mstoken极速响应,支持多语言~

简介 VITA-Audio 是一个由腾讯优图实验室(Tencent Youtu Lab)、南京大学和厦门大学的研究人员共同开发的项目,旨在解决现有语音模型在流式生成(streaming)场景下生成第一个音频令牌(token)时的高…

测序的原理

Sanger 测序原理 https://v.qq.com/x/page/d0124c0k44t.html illumina 测序原理: https://v.qq.com/x/page/i0770fd7r9i.html PacBio 第三代 SMRT 单分子测序 https://v.qq.com/x/page/r03534cry7u.html Ion torrent 测序原理 https://v.qq.com/x/page/v01754s6r82.…

高项-逻辑数据模型

逻辑数据模型的核心理解 1. 定义与特点 逻辑数据模型(Logical Data Model, LDM): 是一种抽象的数据结构设计,用于描述业务实体(如客户、订单)及其关系(如“客户下单”)&#xff0c…

《数字分身进化论:React Native与Flutter如何打造沉浸式虚拟形象编辑》

React Native,依托JavaScript语言,借助其成熟的React生态系统,开发者能够快速上手,将前端开发的经验巧妙运用到移动应用开发中。它通过JavaScript桥接机制调用原生组件,实现与iOS和Android系统的深度交互,这…

提高绳牵引并联连续体机器人运动学建模精度的基于Transformer的分段学习方法

合肥工业大学王正雨老师团队针对绳牵引并联连续体机器人的运动学建模提出一种基于Transformer网络的分段学习方法,该方法较传统建模性能卓越、精度更高。相关研究论文“Transformer-based segmented learning for kinematics modelling of a cable-driven parallel …

【PX4飞控】在 Matlab Simulink 中使用 Mavlink 协议与 PX4 飞行器进行交互

这里列举一些从官网收集的比较有趣或者实用的功能。 编写 m 脚本与飞行器建立 UDP 连接,并实时可视化 Mavlink 消息内容,或者读取脚本离线分析数据。不光能显示 GPS 位置或者姿态等信息的时间曲线,可以利用 Matlab Plot 功能快速定制化显示一…

Oracle中的select1条、几条、指定范围的语句

在Oracle中,可以使用不同的方法来选择一条记录、多条记录或指定范围内的记录。以下是具体的实现方式: 1. 查询单条记录 使用ROWNUM伪列限制结果为1条: SELECT * FROM your_table WHERE ROWNUM 1;特点:Oracle会在结果集生成时分…

自营交易考试为何出圈?一场模拟交易背后的真实竞争

在交易圈里,有个现象正在悄悄发生:越来越多交易员开始主动报名参与一类“非实盘”的考试,原因却并不复杂。不是为了资格证书,也不是为了炫技,而是为了一个更实在的东西——稳定、透明的利润分成,以及一次向…

一键生成达梦、Oracle、MySQL 数据库 ER 图!解锁高效数据库设计!

从事企业软件项目开发的同学们一定对 ER 图很熟悉,可以帮助用户快速厘清数据库结构,方便后续维护和优化。但是在日常工作中,面对复杂的数据结构,整理表设计文档对于每一位DBA来说都很头大,需要将设计细节转化为条理清晰…

游戏行业DDoS攻击类型及防御分析

游戏行业作为DDoS攻击的高发领域,攻击类型复杂多样,结合多个来源的信息,以下是其主要攻击类型及特征分析: 1. 传统流量型DDoS攻击 UDP洪水攻击:通过大量UDP报文淹没服务器端口,消耗带宽资源,导…

Web 架构之状态码全解

文章目录 一、引言二、状态码分类2.1 1xx 信息性状态码2.2 2xx 成功状态码200 OK201 Created204 No Content 2.3 3xx 重定向状态码301 Moved Permanently302 Found304 Not Modified 2.4 4xx 客户端错误状态码400 Bad Request401 Unauthorized403 Forbidden404 Not Found 2.5 5x…

jedis+redis pipeline诡异的链接损坏、数据读取异常问题解决

文章目录 问题现象栈溢出(不断的重连)读取超时未知响应尝试读取损坏的链接读取到的数据和自己要读的无关,导致空指针、类型转换错误,数据读取错乱 问题写法问题分析修复注意点 问题现象 栈溢出(不断的重连&#xff09…

c++STL-list的模拟实现

cSTL-list的模拟实现 list源码剖析list模拟实现list构造函数拷贝构造函数赋值重载迭代器 iterator访问结点数size和判空尾插 push_back头插 push_front尾删pop_back头删pop_front插入 insert删除 erase清空clear和析构函数访问结点 参考程序 list源码剖析 建议先看cSTL-list的…

WeakAuras Lua Script ICC (BarneyICC)

WeakAuras Lua Script ICC (BarneyICC) https://wago.io/BarneyICC/69 全量英文字符串: !WA:2!S33c4TXX5bQv0kobjnnMowYw2YAnDKmPnjnb4ljzl7sqcscl(YaG6HvCbxaSG7AcU76Dxis6uLlHNBIAtBtRCVM00Rnj8Y1M426ZH9XDxstsRDR)UMVCTt0DTzVhTjNASIDAU…

校园网规划与设计方案

一、项目概述 校园网是学校实现信息化教学、科研与管理的重要基础设施,其性能与稳定性直接影响学校的整体发展。随着学校规模不断扩大、教学科研活动日益丰富,对校园网的带宽、可靠性、安全性以及智能化管理等方面提出了更高要求。本规划与设计方案旨在构建一个高速、稳定、…

算法分析:蛮力法

一、实验目的 1 掌握蛮力法的设计思想(利用计算机去穷举所有的可能解,再从中依次找出可行解) 2 掌握蛮力法的具体实现和时间复杂度分析 3 理解蛮力法的常见特性 实验要求:先用伪代码描述利用蛮力法解决的算法解决方案,再用程序实现,计算时间…

信息系统运行管理员:临阵磨枪版

信息系统运行管理员考试 - 全覆盖详细背诵大纲 (根据考情分析和原始材料,力求完整覆盖考点细节) 第一部分:基础知识与运维概览 Chapter 1: 信息系统运维概述 (上午题 5分) 信息: 含义:香农 - 减少随机不确定性的东西&#xff1b…

Linux的进程管理和用户管理

gcc与g的区别 比如有两个文件:main.c mainc.cpp(分别是用C语言和C语言写的)如果要用gcc编译: gcc -o mainc main.c gcc -o mainc mainc.cpp -lstdc表明使用C标准库; 区别一: gcc默认只链接C库&#x…

Python 常用模块(八):logging模块

目录 一、引言:日志模块在项目开发中的重要性二、从 Django 日志配置看 Logging 模块的核心组成三、logging模块核心组件详解3.1 记录器Logger3.2 级别Level3.3 根记录器使用3.4 处理器Handler3.5 格式化器Formatter3.6 日志流3.7 日志示例 四、日志模块总结 一、引…

Servlet原理

Servlet 体系结构的类层次关系 Servlet(接口):定义了 Servlet 的核心生命周期方法(如 init()、service()、destroy()),是所有 Servlet 的顶层规范,任何 Servlet 都需实现该接口。GenericServlet…