大模型学习基础(五) 强化学习(Reinforcement Learning,RL)初步

前面的文章简单介绍过,传统的监督学习所使用的数据集是(特征,标签),有“标签”即明确的知晓正确的输出应该是什么。而强化学习所面临的问题并不一定有严格的正确答案,而只是知晓一个大概正确的方向:如在下围棋时,第一步下在哪里?显然这个问题没有一个明确答案,这个时候使用强化学习显然比监督学习更加合适,因为监督学习需要的是具有明确答案作为标签的数据集。

强化学习的结构逻辑模型可以用上图简单表示:

三要素:1.Actor,即模型;2.Environment,环境 3.Action,即模型的输出

Environment输入Observation给Actor,Actor输出一个Action给Environment,Environment回复一个Reward(奖励)分数给Actor,接着继续把Observation交给Actor,如此循环。模型训练的要求就是使得Reward最大,代表我们找到了最优的模型。

对于模型来说,Environment输入Observation给Actor,即代表模型从环境中提取到了状态信息,根据这个状态信息模型来判断下一步的动作;而模型输出的是一个分类的结果,即多个动作对应多个不同的概率;在输出概率分布以后要添加一定的随机性,使得每次的输出结果具有差异性,然后选择最大概率所对应的动作。

模型在选择一个动作之后,这个动作实际是对Environment发生,相应的Environment会给模型一个回馈Reward,然后再给模型一个新的Observation,模型继续选择新的动作,循环此过程。这个过程中的Reward会被累积下来,Reward越大,代表模型做出的动作越好。用表示reward累计,因为我们希望R越大越好,所以R取反可以直接作为损失函数,使得最小化损失和最大化奖励统一起来。

整个强化学习的过程逻辑图如下:

需要注意的是,只有Actor本身是神经网络结构,而Env和Reward都是黑盒子,这意味着我们只能优化Actor的参数,而Env和Reward中的参数是无法优化的。有了通过Reward定义的损失函数,有了模型Actor,显然我们可以通过常规的深度学习的方法来优化Actor中的参数。

那么如何使得在给定S1时,模型能输出指定的值a?

这个时候的输出是可以明确的,这样的训练可以使用监督学习完成。可以通过经典的多分类问题思路来处理,即用交叉熵定义损失函数。如果不想要模型输出指定的值a,只需要对损失函数取反。

而实际的情况是,环境的状态S是由多个Si构成的,每训练一组S-a即训练一个多分类问题,把这些问题的损失函数(交叉熵)加在一起,即可训练出在不同的状态下应该使用什么动作。这里读者可能会有疑问:上述介绍的问题似乎都是监督学习问题,即可以明确正确输出的标签,与reward又有什么关联呢?这个问题将在下一讲给出答案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1010564.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

REST--GCA

Voxel wise和ROI wise REST 提供两种计算功能连接的方式:Voxel wise(计算 ROI 和 mask 内每个体素的相关)和 ROI wise(计算两个或多个 ROI 之间的相关)。 Mask 的设定 有三种类型 mask:默认的 mask、无 mas…

linux查看内存

以下几种办法: dfdf -h (显示GB)gpustat

SPM设置原点

目的:处理过程中无需点击 方法:利用display预先设置原点。 先点击set origin 再点击reorient 最后点击no

30亿参数引爆企业智能升级:IBM Granite-4.0微型混合模型如何重构本地化AI部署生态

30亿参数引爆企业智能升级:IBM Granite-4.0微型混合模型如何重构本地化AI部署生态 【免费下载链接】granite-4.0-h-micro-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/granite-4.0-h-micro-bnb-4bit 2025年人工智能领域迎来里程碑式突破…

Qwen3-VL多模态大模型全解析:技术突破、部署实践与行业应用指南

Qwen3-VL多模态大模型全解析:技术突破、部署实践与行业应用指南 【免费下载链接】Qwen3-VL-8B-Thinking 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-8B-Thinking 在人工智能领域,多模态交互技术正引领新一轮创新浪潮。Qwen3-VL…

27 岁从传统行业裸辞转网络安全,我是如何做到的?

27 岁女生从传统行业裸辞转网络安全,3 个月拿到大厂 offer:这行真的没你想的那么难 后台经常收到私信,问我一个做了 4 年传统行业(之前是线下品牌运营)的女生,为什么突然 “跨界” 转做网络安全&#xff1…

腾讯开源双引擎AI模型:混元3D开创多模态创作新纪元,千倍效率革命重塑数字内容生产

腾讯开源双引擎AI模型:混元3D开创多模态创作新纪元,千倍效率革命重塑数字内容生产 【免费下载链接】Hunyuan3D-1 项目地址: https://ai.gitcode.com/hf_mirrors/tencent/Hunyuan3D-1 近日,中国科技巨头腾讯对外公布了其在人工智能领域…

效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决

实现通用机器人的类人灵巧操作能力,是机器人学领域长期以来的核心挑战之一。近年来,视觉 - 语言 - 动作 (Vision-Language-Action,VLA) 模型在机器人技能学习方面展现出显著潜力,但其发展受制于一个根本性瓶颈:高质量操…

str.isalnum()

1. 功能定义str.isalnum() 是 Python 字符串对象的内置方法,用于检查字符串是否仅包含字母(a-z, A-Z)和数字(0-9) ,且至少包含一个字符。返回值为布尔类型(True/False)。2. 语法格式…

Arduino 数码管模拟值实验

目录 1、介绍1位数码管模拟值实验2、实验现象3实验材料3.1步骤3.2优化代码 4、函数介绍以segPins numCodes numCodes()这三个为例segPinsnumCodesdisplayNumber()简化的 loop 函数 4.1二维数组的简单上机代码运行结果概念解释 总结查找数组中的最大值及其…

54.分析模式入门-解决复杂业务问题的建模技巧-提升建模能力

54 分析模式入门:解决复杂业务问题的建模技巧 你好,欢迎来到第 54 讲。 在 DDD 的世界里,除了我们已经深入学习的聚合、值对象、限界上下文等核心模式外,还存在一类非常特殊的“模式”——分析模式(Analysis Pattern)。 这个概念,由大师 Martin Fowler 在他的同名著作…

一招教你在csdn博客上增加动画嵌入、视频插入、代码动画演示

(TOC)(CSDN动画演示添加教程) 1、动画嵌入 嵌入GIF动图(最适合新手,操作最简单) GIF是短动画的首选适合展示操作步骤、简单效果,全程不用代码 步骤1:制造/准备GIF动图 如果没有先成的GIF,用免费工具LIC…

百度网盘资源解锁神器:告别提取码搜索烦恼的智能方案

百度网盘资源解锁神器:告别提取码搜索烦恼的智能方案 【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 还在为百度网盘提取码而四处奔波吗?这款智能解析工具将彻底改变你的资源获取体验,让繁琐…

生成式搜索优化服务商口碑推荐

生成式搜索优化行业技术突破:AI有名引领智能化升级行业痛点分析当前生成式搜索优化领域面临三大技术挑战:语义理解碎片化导致意图识别准确率不足65%(数据表明),多引擎适配成本高使企业部署周期延长至3-24个月&#xff…

AI算力:驱动智能时代多元计算与高效调度的基础

各行各业正被人工智能发展浪潮以前所未有的力道进行重塑,而且支撑其运作的底层基础是算力。换种通俗易懂的说法,AI算力是指用来执行人工智能算法,对海量数据予以处理以及解析所需要的计算能力。它不是一项简单的硬件指标,而是包含…

AI知识库的构建:从数据采集、处理到高效检索的全流程解析

AI知识库的搭建以及运用属于一项具备系统性的工程项目,它的关键之处在于怎样以高效且精准地把领域方面的知识给予人工智能系统,从而让其拥有专业领域范畴内的认知以及推理能力。这个进程一般被称作“知识库投喂”或者“知识灌注”,它并非仅仅…

当日总结(2025年12月13日)

当日总结(2025年12月13日) 前言 去做,去试错,去迭代。 数组专题27.移除元素 v0.326.删除有序数组中的重复项 v0.2283.移动零 v0.2848.比较含退格的字符串 v0.2977.有序数组的平方 v0.3704.二分查找 v0.235.搜索插入位置 v0.134.在…

Csharp学习笔记——常用类、集合框架、泛型、字典精华总结

思维导图总结不知不觉在Csharp的学习已经投入快1个月了,这1个月下来学习的东西还是挺多的,前面也分享了两篇博客,这是我的第三篇博客了,这周学习了很多东西,主要学习了集合框架、字典、泛型等等,所以一周一…

踝关节韧带损伤的管理与康复 综述

严正声明:本博客内容仅为学习使用,不具备任何医学建议或者参考价值。如有不适,请遵医嘱。本博客所转载之内容,不能作为正式的医学参考,仅供学习踝关节韧带损伤的管理与康复Management and Rehabilitation of Ligamento…

55.物流场景实战-限界上下文+CQRS设计物流追踪系统-附完整架构设计

55 物流场景实战:限界上下文 + CQRS 设计物流追踪系统 你好,欢迎来到第 55 讲。 这是我们“架构升级”阶段的毕业大作。在经历了限界上下文、上下文映射、CQRS、事件驱动等一系列“战略级”武器的洗礼后,是时候将它们全部投入战场,去攻克一个真正复杂的、系统级的业务难题…