深度学习3. 强化学习-Reinforcement learning | RL

news/2026/1/12 11:19:50/文章来源:https://blog.csdn.net/qq_38998213/article/details/132515815

强化学习是机器学习的一种学习方式，它跟监督学习、无监督学习是对应的。本文将详细介绍强化学习的基本概念、应用场景和主流的强化学习算法及分类。

目录

什么是强化学习？

强化学习的应用场景

强化学习的主流算法

强化学习(reinforcement learning)

什么是强化学习？

强化学习并不是某一种特定的算法，而是一类算法的统称。

如果用来做对比的话，他跟监督学习，无监督学习是类似的，是一种统称的学习方式。

强化学习算法的思路非常简单，以游戏为例，如果在游戏中采取某种策略可以取得较高的得分，那么就进一步「强化」这种策略，以期继续取得较好的结果。这种策略与日常生活中的各种「绩效奖励」非常类似。我们平时也常常用这样的策略来提高自己的游戏水平。

在 Flappy bird 这个游戏中，我们需要简单的点击操作来控制小鸟，躲过各种水管，飞的越远越好，因为飞的越远就能获得更高的积分奖励。

这就是一个典型的强化学习场景：

机器有一个明确的小鸟角色——代理
需要控制小鸟飞的更远——目标
整个游戏过程中需要躲避各种水管——环境
躲避水管的方法是让小鸟用力飞一下——行动
飞的越远，就会获得越多的积分——奖励

强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”。

而是通过自己不停的尝试来学会某些技能。

强化学习的应用场景

强化学习目前还不够成熟，应用场景也比较局限。最大的应用场景就是游戏了。

游戏

2016年：AlphaGo Master 击败李世石，使用强化学习的 AlphaGo Zero 仅花了40天时间，就击败了自己的前辈 AlphaGo Master。

2019年1月25日：AlphaStar 在《星际争霸2》中以 10：1 击败了人类顶级职业玩家

2019年4月13日：OpenAI 在《Dota2》的比赛中战胜了人类世界冠军。

机器人

机器人很像强化学习里的「代理」，在机器人领域，强化学习也可以发挥巨大的作用。

其他

强化学习在推荐系统，对话系统，教育培训，广告，金融等领域也有一些应用：

强化学习的主流算法

免模型学习（Model-Free） vs 有模型学习（Model-Based）

在介绍详细算法之前，我们先来了解一下强化学习算法的2大分类。这2个分类的重要差异是：智能体是否能完整了解或学习到所在环境的模型

有模型学习（Model-Based）对环境有提前的认知，可以提前考虑规划，但是缺点是如果模型跟真实世界不一致，那么在实际使用场景下会表现的不好。

免模型学习（Model-Free）放弃了模型学习，在效率上不如前者，但是这种方式更加容易实现，也容易在真实场景下调整到很好的状态。所以免模型学习方法更受欢迎，得到更加广泛的开发和测试。

除了免模型学习和有模型学习的分类外，强化学习还有其他几种分类方式：

基于概率 VS 基于价值
回合更新 VS 单步更新
在线学习 VS 离线学习

强化学习(reinforcement learning)

又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。

但在传统的机器学习分类中没有提到过强化学习，而在连接主义学习中，把学习算法分为三种类型，

非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。

强化学习（RL）是机器学习的一个领域，涉及软件代理如何在环境中采取行动以最大化一些累积奖励的概念。该问题由于其一般性，在许多其他学科中得到研究，如博弈论，控制理论，运筹学，信息论，基于仿真的优化，多智能体系统，群智能，统计和遗传算法。。在运筹学和控制文献中，强化学习被称为近似动态规划或神经动态规划。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/57535.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

css 分割线中间带文字

css 分割线中间带文字

效果图代码块（自适应） <div class"line"><span class"text">我是文字</span></div>.line{height:0;border-top:1px solid #000;text-align:center;}.text{position:relative;top:-14px;background-color:#…

阅读更多...

C语言(第三十二天)

C语言(第三十二天)

1. 递归是什么？ 递归是学习C语言函数绕不开的一个话题，那什么是递归呢？ 递归其实是一种解决问题的方法，在C语言中，递归就是函数自己调用自己。写一个史上最简单的C语言递归代码： #include <stdio.h>…

阅读更多...

2023.8.25 关于 Selenium 常用 API 详解

2023.8.25 关于 Selenium 常用 API 详解

目录引言打开页面查找页面元素输入文本点击操作提交操作清除文本获取文本和属性值编辑选择多个元素获取页面标题和URL 等待操作浏览器操作多层框架定位窗口操作屏幕截图下拉框元素选择操作编辑执行脚本文件上传引言本文讲的所有…

阅读更多...

广州华锐互动：VR垃圾分类虚拟科普系统让学习过程更加丰富有趣

广州华锐互动：VR垃圾分类虚拟科普系统让学习过程更加丰富有趣

在我们的日常生活中，垃圾分类已成为一项重要的公民责任。然而，由于缺乏对垃圾分类的深入理解和相关知识，许多人在实践中往往感到困惑和挫败。为了解决这个问题，一种创新的解决方案应运而生：垃圾分类VR虚拟仿真教学系统…

阅读更多...

linux切换到root没有conda环境

linux切换到root没有conda环境

这个错是因为没有将anaconda添加到环境变量 export PATH"/home/tao/anaconda3/bin:$PATH"然后 source ~/.bashrc或者写入 nano ~/.bashrc在文件的末尾添加以下行 export PATH"/home/tao/anaconda3/bin:$PATH"再 source ~/.bashrc就可以了

阅读更多...

git各类问题处理收集

git各类问题处理收集

一、pull Git拉取失败 Your local changes would be overwritten by merge.Commit, stash or revert them to proceed 1.通过VCS -> Git -> Stash Changes，将本地的所有改动暂存到本地仓库。这一步执行后会隐藏本地的所有改动 2.pull 3.如果想把自己修改的部…

阅读更多...

python爬虫-使用selenium自动登录微博

python爬虫-使用selenium自动登录微博

环境准备：anaconda、pycharm编辑器、chromedriver(记得下载) 首先查看本地anaconda的python环境和selenium版本号(不同版本的api接口可能不同) conda list python输出 # Name Version Build Channel ipython …

阅读更多...

MySQL - 表空间碎片整理方法

MySQL - 表空间碎片整理方法

MySQL数据库中的表在进行了多次delete、update和insert后，表空间会出现碎片。定期进行表空间整理，消除碎片可以提高访问表空间的性能。检查表空间碎片下面这个实验用于验证进行表空间整理后对性能的影响，首先检查这个有100万记录表的大小&…

阅读更多...

2023年7月京东空气净化器行业品牌销售排行榜（京东运营数据分析）

2023年7月京东空气净化器行业品牌销售排行榜（京东运营数据分析）

随着科技发展，智能家具在日常生活中出现的频率越来越高，许多曾经不被关注的家电也出现在其中，包括近年来逐渐兴起的空气净化器。伴随人们对自身健康的重视度越来越高，作为能够杀灭空气污染物、有效提高空气清洁度的产品&#xff0…

阅读更多...

iOS如何获取设备型号的最新方法总结

iOS如何获取设备型号的最新方法总结

每一种 iOS 设备型号都有对应的一个或多个硬件编码/标识符，称为 device model 或者叫 machine name 通常的做法是，先获取设备的 device model 值，再手动映射为具体的设备型号（或者直接把 device model 值传给后端，让后…

阅读更多...

怎样快速选择正确的可视化图表？

怎样快速选择正确的可视化图表？

数据可视化的图表类型十分丰富，好的图表可以有效、清晰地呈现数据的信息。对于用户而言，选择正确的图表是十分关键的，不仅可以达到“一图胜千言”的效果，而且会直接影响分析的结果。用户选择正确的数据可视化图表前，…

阅读更多...

Android学习之路(10) Bundle

Android学习之路(10) Bundle

Bundle的概念理解 Bundle经常出现在以下场合： Activity状态数据的保存与恢复涉及到的两个回调：void onSaveInstanceState (Bundle outState)、void onCreate (Bundle savedInstanceState)Fragment的setArguments方法：void setArguments (Bu…

阅读更多...

RSA和RSA2公钥、私钥的生成

RSA和RSA2公钥、私钥的生成

生成RSA公钥、私钥在特定目录生成SSH密钥对 ## -t rsa指定密钥类型为RSA， -f 后指定对应目录和文件名 ssh-keygen -t rsa -f /root/niwanjia/id_rsa 生成RSA2公钥、私钥 RSA2是一种被使用广泛的非对称加密算法。在linux环境下执行 openssl OpenSSL> genr…

阅读更多...

基于云原生网关的流量防护实践

基于云原生网关的流量防护实践

作者：涂鸦背景在分布式系统架构中，每个请求都会经过很多层处理，比如从入口网关再到 Web Server 再到服务之间的调用，再到服务访问缓存或 DB 等存储。在下图流量防护体系中，我们通常遵循流量漏斗原则进行流量防护。…

阅读更多...

浅谈基于vue3+element二次封装el-upload组件

浅谈基于vue3+element二次封装el-upload组件

闲话少说，先上二次封装el-upload代码 <template><div><el-uploadclass"upload-demo"ref"uploadImgRef"action"#":show-file-list"false":auto-upload"false"accept".png, .jpg, .gif":…

阅读更多...

论文阅读_模型结构_LoRA

论文阅读_模型结构_LoRA

name_en: LoRA: Low-Rank Adaptation of Large Language Models name_ch: LORA：大语言模型的低阶自适应 paper_addr: http://arxiv.org/abs/2106.09685 date_read: 2023-08-17 date_publish: 2021-10-16 tags: [‘深度学习’,‘大模型’] author: Edward J. Hu cita…

阅读更多...

自然语言处理(三)：基于跳元模型的word2vec实现

自然语言处理(三)：基于跳元模型的word2vec实现

跳元模型回顾一下第一节讲过的跳元模型跳元模型（Skip-gram Model）是一种用于学习词向量的模型，属于Word2Vec算法中的一种。它的目标是通过给定一个中心词语来预测其周围的上下文词语。这节我们以跳元模型为例，讲解word2vec的…

阅读更多...

java中的序列化和反序列化

java中的序列化和反序列化

1、序列化是干啥用的？ 序列化的原本意图是希望对一个java对象做一下“变换”，变成字节序列，这样一来方便持久化存储到磁盘，另外变换成字节序列也更方便在网络运输和传播，所以概念上很好理解： 序列化&…

阅读更多...

EasyExcel导出复杂表格到邮箱

EasyExcel导出复杂表格到邮箱

EasyExcel导出复杂表格到邮箱 📔 千寻简笔记介绍千寻简笔记已开源，Gitee与GitHub搜索chihiro-notes，包含笔记源文件.md，以及PDF版本方便阅读，且是用了精美主题，阅读体验更佳，如果文章对你有帮助请帮我点一个Star～更新：支持在线阅读文章，根据发布日期分类。文章…

阅读更多...

python怎么提取视频中的音频

python怎么提取视频中的音频

目录操作步骤 1. 安装MoviePy库： 2. 导入MoviePy库和所需的模块： 3. 提取音频： 可能遇到的问题 1. 编解码器支持： 2. 依赖项安装： 3. 文件路径问题： 4. 内存消耗： 5. 输出文件大小&a…

阅读更多...

最新文章