强化学习 | 基于 Q-Learning 算法解决 Treasure on Right 游戏

Hi,大家好,我是半亩花海。在本篇技术博客中,我们将探讨如何使用 Q-Learning 算法来解决 Treasure on Right 游戏,实现一个简单的强化学习


一、游戏背景

Treasure on Right 游戏——一个简单的命令行寻宝游戏,是一个经典的强化学习示例,它模拟了一个智能体在有限状态空间中寻找宝藏的过程。游戏环境由一个线性状态空间组成,智能体可以执行两个动作:向左移动或向右移动。目标是让智能体学会在状态空间中移动,找到宝藏,它位于状态空间的最右侧。


二、Q-Learning 算法简介

Q-Learning 是一种基于值函数的强化学习算法,用于解决智能体与环境交互的问题。它通过迭代更新状态-动作对的 Q 值来优化策略。Q 值表示在特定状态下采取特定动作的长期回报,智能体通过学习最优的 Q 值来选择最佳动作。


三、代码拆解

1. 导入必要的库

首先导入 pandas、numpy 和 time 库,以便进行数据处理、数组操作和控制程序运行时间。

import pandas as pd
import numpy as np
import time

2. 定义常量和参数

在这个部分,我们定义了游戏中所需的常量和参数,包括状态数量、动作集合、epsilon 贪婪度、学习率、奖励衰减因子等。

N_STATES = 6                 # 状态数量
ACTIONS = ["left", "right"]  # 动作集合
EPSILON = 0.9                # epsilon-greedy算法中的贪婪度
ALPHA = 0.1                  # 学习率
GAMMA = 0.9                  # 奖励衰减因子
MAX_EPISODES = 15            # 最大训练轮数
FRESH_TIME = 0.3             # 每一步的时间间隔
TerminalFlag = "terminal"    # 终止状态标识

3. 创建Q表

我们定义了一个函数来创建 Q 表格,用于存储状态-动作对的 Q 值。初始时,所有的 Q 值都被初始化为 0。

def build_q_table(n_states, actions):return pd.DataFrame(  np.zeros((n_states, len(actions))),  columns=actions  )

4. 选择动作

这个函数根据当前状态和 Q 表格选择动作。我们使用 ε-greedy 策略,以一定的概率随机选择动作,以便在探索和利用之间取得平衡。

def choose_action(state, q_table):state_table = q_table.loc[state, :]if (np.random.uniform() > EPSILON) or ((state_table == 0).all()):action_name = np.random.choice(ACTIONS)else:action_name = state_table.idxmax()return action_name

5. 获取环境反馈

这个函数模拟了智能体与环境的交互过程,根据智能体采取的动作返回下一个状态和相应的奖励。

def get_env_feedback(S, A):if A == "right":if S == N_STATES - 2:S_, R = TerminalFlag, 1else:S_, R = S + 1, 0else:S_, R = max(0, S - 1), 0return S_, R

6. 更新环境

这个函数用于更新环境的显示,以便智能体能够观察到当前状态。

def update_env(S, episode, step_counter):env_list = ["-"] * (N_STATES - 1) + ["T"]  if S == TerminalFlag:  interaction = 'Episode %s: total_steps = %s' % (episode + 1, step_counter)  print(interaction)  time.sleep(2)  else:  env_list[S] = '0'  interaction = ''.join(env_list)  print(interaction)  time.sleep(FRESH_TIME)  

7. Q-learning主循环

这个函数包含了整个Q-learning的主要逻辑,包括选择动作、获取环境反馈和更新Q值等步骤。

def rl():q_table = build_q_table(N_STATES, ACTIONS)for episode in range(MAX_EPISODES): step_counter = 0S = 0is_terminated = Falseupdate_env(S, episode, step_counter)  while not is_terminated:  A = choose_action(S, q_table)  S_, R = get_env_feedback(S, A)  q_predict = q_table.loc[S, A]  if S_ != TerminalFlag:  q_target = R + GAMMA * q_table.loc[S_, :].max()  else:  q_target = R  is_terminated = True  q_table.loc[S, A] += ALPHA * (q_target - q_predict)  S = S_  update_env(S, episode, step_counter + 1)  step_counter += 1  return q_table

8. 主程序入口

在这部分代码中,我们运行整个程序,执行Q-learning算法并输出最终的Q表格。

if __name__ == '__main__':q_table = rl()  print(q_table)  

四、项目意义和应用价值

Treasure on Right 游戏作为一个简单的强化学习示例,展示了 Q-Learning 算法在解决智能体与环境交互问题中的应用。通过实现这个项目,我们可以深入理解强化学习算法的工作原理,并了解如何利用这种算法解决实际问题。Q-Learning 算法及其变体在许多领域都有广泛的应用,如机器人控制、自动驾驶、游戏设计等。通过掌握这种算法,我们可以为各种应用场景开发智能决策系统,从而提高效率、优化资源利用,甚至解决复杂的实时决策问题。

在学术界和工业界,Q-Learning 算法已经被广泛应用,并且不断被改进和扩展,以解决更加复杂的问题。因此,掌握 Q-Learning 算法对于从事人工智能和机器学习领域的工程师和研究人员来说是非常重要的。


五、完整代码

# 使用Q-Learning算法来实现treasure on right游戏(宝藏在最右边的位置:训练一个智能体去获得这个宝藏)
import pandas as pd
import numpy as np
import timeN_STATES = 6                 # 状态数量
ACTIONS = ["left", "right"]  # 动作集合
EPSILON = 0.9                # epsilon-greedy算法中的贪婪度
ALPHA = 0.1                  # 学习率
GAMMA = 0.9                  # 奖励衰减因子
MAX_EPISODES = 15            # 最大训练轮数
FRESH_TIME = 0.3             # 每一步的时间间隔
TerminalFlag = "terminal"    # 终止状态标识# 创建Q表
def build_q_table(n_states, actions):return pd.DataFrame(  # 创建一个DataFrame对象np.zeros((n_states, len(actions))),  # 用0初始化一个n_states行,len(actions)列的数组columns=actions  # 设置DataFrame的列名为动作列表)# 根据当前状态选择动作
def choose_action(state, q_table):state_table = q_table.loc[state, :]  # 获取Q表中对应状态行的值if (np.random.uniform() > EPSILON) or ((state_table == 0).all()):  # 判断是否随机选择动作action_name = np.random.choice(ACTIONS)  # 如果满足条件,随机选择一个动作else:action_name = state_table.idxmax()  # 否则选择具有最大值的动作return action_name  # 返回选择的动作# 获取环境的反馈,包括下一个状态和奖励
def get_env_feedback(S, A):if A == "right":  # 如果动作是向右移动if S == N_STATES - 2:  # 如果当前状态是倒数第二个状态S_, R = TerminalFlag, 1  # 下一个状态是终止状态,奖励为1else:  # 否则S_, R = S + 1, 0  # 下一个状态向右移动一步,奖励为0else:  # 如果动作不是向右移动S_, R = max(0, S - 1), 0  # 下一个状态向左移动一步,奖励为0return S_, R  # 返回下一个状态和奖励# 更新环境
def update_env(S, episode, step_counter):env_list = ["-"] * (N_STATES - 1) + ["T"]  # 创建一个环境列表,长度为N_STATES-1,最后一个元素为终止标志"T"if S == TerminalFlag:  # 如果当前状态为终止状态interaction = 'Episode %s: total_steps = %s' % (episode + 1, step_counter)  # 打印本次训练的步数print(interaction)  # 打印信息time.sleep(2)  # 等待2秒else:  # 如果当前状态不是终止状态env_list[S] = '0'  # 在环境列表中将当前状态位置标记为'0'interaction = ''.join(env_list)  # 将环境列表转换为字符串print(interaction)  # 打印环境状态time.sleep(FRESH_TIME)  # 等待一段时间# Q-learning主循环
def rl():# 创建Q表: 存储的表记录的是, 在状态S下, 每个行为A的Q值q_table = build_q_table(N_STATES, ACTIONS)for episode in range(MAX_EPISODES):       # 对于每一轮训练(episode)step_counter = 0                      # 记录每个episode的步数S = 0                                 # 初始状态is_terminated = False                 # 用于判断是否到达终止状态update_env(S, episode, step_counter)  # 更新环境显示# 在未到达终止状态的情况下进行循环while not is_terminated:            # 如果未到达终止状态A = choose_action(S, q_table)   # 选择动作S_, R = get_env_feedback(S, A)  # 获取环境反馈(下一个状态和奖励)q_predict = q_table.loc[S, A]   # 获取Q值的预测值# 根据下一个状态是否为终止状态更新Q值的目标值if S_ != TerminalFlag:                               # 如果下一个状态不是终止状态q_target = R + GAMMA * q_table.loc[S_, :].max()  # 使用贝尔曼方程计算目标Q值else:                                                # 如果下一个状态是终止状态q_target = R                                     # 目标Q值为即时奖励is_terminated = True                             # 到达终止状态q_table.loc[S, A] += ALPHA * (q_target - q_predict)  # 使用Q-learning更新Q表S = S_                                               # 更新当前状态update_env(S, episode, step_counter + 1)             # 更新环境显示step_counter += 1                                    # 步数加1return q_tableif __name__ == '__main__':q_table = rl()  # 运行Q-learning算法print(q_table)  # 打印Q表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/674053.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

删除和清空Hive外部表数据

外部表和内部表区别 未被external修饰的是内部表(managed table),被external修饰的为外部表(external table); 区别: 内部表数据由Hive自身管理,外部表数据由HDFS管理; …

SpringBoot和SpringMVC

目录 一、springboot项目 (1)创建springboot项目 (2)目录介绍 (3)项目启动 (4)运行一个程序 (5)通过其他方式创建和运行springboot项目 二、SpringMVC…

高可用 k8s 1.29 一键安装脚本, 丝滑至极

博客原文 文章目录 集群配置配置清单集群规划集群网络规划 环境初始化主机配置 配置高可用ApiServer安装 nginx安装 Keepalived 安装脚本需要魔法的脚本不需要魔法的脚本配置自动补全加入其余节点 验证集群 集群配置 配置清单 OS: ubuntu 20.04kubernetes&#xf…

【Scala】1. 变量和数据类型

1. 变量和数据类型 1.1 for begining —— hello world 新建hello.scala文件,注意object名字与文件名一致。 object hello { def main(args:Array[String]): Unit { println("hello world!") } }运行后打印结果如下: hello world!Pr…

Golang 并发 生产者消费者模式

Golang 并发 生产者消费者模式 生产者-消费者模式能够带来的好处 生产者消费者模式是一种常见的并发编程模式,用于解决生产者和消费者之间的数据传递和处理问题。在该模式中,生产者负责生成数据(生产),而消费者负责处…

【射影几何13 】梅氏定理和塞瓦定理探讨

梅氏定理和塞瓦定理 目录 一、说明二、梅涅劳斯(Menelaus)定理三、塞瓦(Giovanni Ceva)定理四、塞瓦点的推广4.1 共线定理4.2 三角形外的塞瓦点 一、说明 在射影几何中,梅涅劳斯(Menelaus)定理和塞瓦定理是…

最大子数组和[中等]

一、题目 给定一个长度为n的环形整数数组nums,返回nums的非空 子数组 的最大可能和 。 环形数组 意味着数组的末端将会与开头相连呈环状。形式上,nums[i]的下一个元素是nums[(i 1) % n],nums[i]的前一个元素是nums[(i - 1 n) % n]。 子数…

论文封面下划线总是对不齐,这3步你肯定没做!

论文封面 在写论文时,总会遇到论文封面下划线对不齐,学会下面这三招轻松搞定封面。 解决方法 ①选中文字,点击“插入”,选择“表格”,找到“文本转化为表格”。列数为2,文字分割位置选空格,设置…

第21讲:动态内存管理

1.为什么要有动态内存分配 2.malloc和free 3.calloc 4.realloc 5.笔试题 6.总结c/c中程序内存区域划分 1.为什么要有动态内存分配 为了调整申请的空间大小,使程序员可以申请和释放空间,提高程序的灵活性 2.malloc和free 作用:分配一块…

python将.db数据库文件转成Excel文档

python实现.db数据库转Excel 程序实现 上一篇文章程序实现以下功能: 1.读取一个Excel文件,文件名通过函数传参数传入 2.将文件读取的内容保存到一个数据库文件中 3.数据库的文件名以传入的Excel文件的文件名命名 4.将excel文件的工作簿的名字作为数据库的表单名 5…

apache_exporter安装说明

Apache Exporter 问题描述 需要监控apache服务,部署了apache_exporter,对过程进行一下记录。 源码参见apache_exporter ①下载 https://github.com/Lusitaniae/apache_exporter/releases②解压缩 tar -xzvf apache_exporter-0.7.0.linux-amd64.tar…

深入了解Redis:选择适用于你的场景的持久化方案

自然语言处理的发展 文章目录 自然语言处理的发展强烈推荐前言:Redis提供了几种主要的持久化方案:RDB快照持久化:工作原理: AOF日志文件持久化:混合持久化: 总结强烈推荐专栏集锦写在最后 强烈推荐 前些天…

相机图像质量研究(7)常见问题总结:光学结构对成像的影响--镜片固化

系列文章目录 相机图像质量研究(1)Camera成像流程介绍 相机图像质量研究(2)ISP专用平台调优介绍 相机图像质量研究(3)图像质量测试介绍 相机图像质量研究(4)常见问题总结:光学结构对成像的影响--焦距 相机图像质量研究(5)常见问题总结:光学结构对成…

戴上HAUWEI WATCH GT 4,解锁龙年新玩法

春节将至,华为WATCH GT 4作为一款颜值和实力并存的手表,能为节日增添了不少趣味和便利。无论你是钟情于龙年表盘或定制属于自己的表盘,还是过年用来抢红包或远程操控手机拍全家福等等,它都能成为你的“玩伴”。接下来,…

C语言 服务器编程-日志系统

日志系统的实现 引言最简单的日志类 demo按天日志分类和超行日志分类日志信息分级同步和异步两种写入方式 引言 日志系统是通过文件来记录项目的 调试信息,运行状态,访问记录,产生的警告和错误的一个系统,是项目中非常重要的一部…

JUnit 5 注解总结与解析

前言 大家好,我是chowley,通过前篇的JUnit实践,我对这个框架产生了好奇,除了断言判断,它还有哪些用处呢?下面来总结一下它的常见注解及作用。 正文 在Java单元测试中,JUnit是一种常用的测试框…

linux互斥锁:递归锁,非递归锁用法详解

在实际的项目中经常涉及到共享资源,共享资源被多个线程访问会出现竞争现象;为了解决竞争和保护共享资源常用的机制之一就是互斥锁! 互斥锁又分为递归锁和非递归锁,互斥锁默认是非递归锁,也是我们常用的上锁方式。那么什…

零基础学Python之整合MySQL

Python 标准数据库接口为 Python DB-API,Python DB-API为开发人员提供了数据库应用编程接口。 不同的数据库你需要下载不同的DB API模块,例如你需要访问Oracle数据库和Mysql数据,你需要下载Oracle和MySQL数据库模块。 DB-API 是一个规范. 它…

【51单片机】要实现动静态数码管,你首先需要知道这些【数码管项目前置知识】

前言 大家好吖,欢迎来到 YY 滴单片机系列 ,热烈欢迎! 本章主要内容面向接触过单片机的老铁 主要内容含: 本章节内容为【实现动静态数码管】项目的第一个模块完整章节:传送门 欢迎订阅 YY滴C专栏!更多干货持…

QT styleSheet——控件设置样式表

QT开发中,需要设置多种多样的控件表现形式,QT实现的styleSheet能够满足多种多样的场景,这里简单的记录下一些我常用的 设置透明背景,鼠标悬浮时,设置背景色: pushButton->setStyleSheet("QPushBu…