具身系列——Q-Learning算法实现CartPole游戏(强化学习)

完整代码参考: rl/qlearning_cartpole.py · 陈先生/ailib - Gitee.com 

部分训练得分:

Episode 0 Reward: 19.0 Avg Reward: 19.00 Time: 0.00s
Episode 1 Reward: 17.0 Avg Reward: 18.98 Time: 0.00s
Episode 2 Reward: 10.0 Avg Reward: 18.89 Time: 0.00s
Episode 3 Reward: 30.0 Avg Reward: 19.00 Time: 0.00s
Episode 4 Reward: 23.0 Avg Reward: 19.04 Time: 0.00s
Episode 5 Reward: 10.0 Avg Reward: 18.95 Time: 0.00s
Episode 6 Reward: 12.0 Avg Reward: 18.88 Time: 0.00s
Episode 7 Reward: 27.0 Avg Reward: 18.96 Time: 0.00s
Episode 8 Reward: 24.0 Avg Reward: 19.01 Time: 0.00s
Episode 9 Reward: 16.0 Avg Reward: 18.98 Time: 0.00s
……
Episode 90 Reward: 10.0 Avg Reward: 22.67 Time: 0.00s
Episode 91 Reward: 11.0 Avg Reward: 22.55 Time: 0.00s
Episode 92 Reward: 9.0 Avg Reward: 22.42 Time: 0.00s
Episode 93 Reward: 22.0 Avg Reward: 22.41 Time: 0.00s
Episode 94 Reward: 30.0 Avg Reward: 22.49 Time: 0.00s
Episode 95 Reward: 26.0 Avg Reward: 22.52 Time: 0.00s
Episode 96 Reward: 11.0 Avg Reward: 22.41 Time: 0.00s
Episode 97 Reward: 10.0 Avg Reward: 22.29 Time: 0.00s
Episode 98 Reward: 9.0 Avg Reward: 22.15 Time: 0.00s
Episode 99 Reward: 23.0 Avg Reward: 22.16 Time: 0.00s
Training completed. Final Q-table:[[0. 0.][0. 0.][0. 0.]...[0. 0.][0. 0.][0. 0.]]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/78398.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2.2 矩阵

考点一:方阵的幂 1. 计算方法 (1) ​找规律法​ ​适用场景​:低阶矩阵或具有周期性规律的矩阵。​示例​: 计算 A ( 0 1 1 0 ) n A \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}^n A(01​10​)n: 当 n n n 为奇…

一个完整的神经网络训练流程详解(附 PyTorch 示例)

🧠 一个完整的神经网络训练流程详解(附 PyTorch 示例) 📌 第一部分:神经网络训练流程概览(总) 在深度学习中,构建和训练一个神经网络模型并不是简单的“输入数据、得到结果”这么简…

从入门到登峰-嵌入式Tracker定位算法全景之旅 Part 0 |Tracker 设备定位概览与系统架构

Part 0 |Tracker 设备定位概览与系统架构 在开始算法与代码之前,本章将从“高空视角”全面剖析一个嵌入式 Tracker 定位系统的整体架构:背景、目标与规划、关键约束、开发环境配置、硬件清单与资源预算、逻辑框图示意、通信链路与协议栈、软件架构与任务划分,以及低功耗管…

【自然语言处理与大模型】大模型意图识别实操

本文先介绍一下大模型意图识别是什么?如何实现?然后通过一个具体的实战案例,详细演示如何运用大模型完成意图识别任务。最后,对大模型在该任务中所发挥的核心作用进行总结归纳。 一、意图识别的定义与核心任务 意图识别是自然语言…

HTML打印设置成白色,但是打印出来的是灰色的解决方案

在做浏览打印的时候,本来设置的颜色是白色,但是在浏览器打印的时候却显示灰色,需要在打印的时候勾选选项“背景图形”即可正常展示。

PyCharm中全局搜索无效

发现是因为与搜狗快捷键冲突了,把框选的那个勾选去掉或设置为其他键就好了

Nginx 核心功能02

目录 一、引言 二、正向代理 (一)正向代理基础概念 (二)Nginx 正向代理安装配置 (三)正向代理配置与验证 三、反向代理 (一)反向代理原理与应用场景 (二&#xf…

探索 C++23 std::to_underlying:枚举底层值获取的利器

文章目录 引言基本概念作用使用示例与之前方法的对比在 C23 中的意义总结 引言 在 C 的发展历程中,每一个新版本都带来了许多令人期待的新特性和改进,以提升代码的安全性、可读性和可维护性。C23 作为其中的一个重要版本,也不例外。其中&…

WGDI-分析WGD及祖先核型演化的集成工具-文献精读126

WGDI: A user-friendly toolkit for evolutionary analyses of whole-genome duplications and ancestral karyotypes WGDI:一款面向全基因组重复事件与祖先核型演化分析的易用工具集 摘要 在地球上大多数主要生物类群中,人们已检测到全基因组复制&…

C# 方法(控制流和方法调用)

本章内容: 方法的结构 方法体内部的代码执行 局部变量 局部常量 控制流 方法调用 返回值 返回语句和void方法 局部函数 参数 值参数 引用参数 引用类型作为值参数和引用参数 输出参数 参数数组 参数类型总结 方法重载 命名参数 可选参数 栈帧 递归 控制流 方法包含了组成程序的…

「Mac畅玩AIGC与多模态16」开发篇12 - 多节点串联与输出合并的工作流示例

一、概述 本篇在输入变量与单节点执行的基础上,扩展实现多节点串联与格式化合并输出的工作流应用。开发人员将掌握如何在 Dify 工作流中统一管理输入变量,通过多节点串联引用,生成规范统一的最终输出,为后续构建复杂逻辑流程打下基础。 二、环境准备 macOS 系统Dify 平台…

解锁Windows异步黑科技:IOCP从入门到精通

在当今快节奏的数字化时代,软件应用对性能的追求可谓永无止境。无论是高并发的网络服务器,还是需要快速处理大量文件的桌面应用,都面临着一个共同的挑战:如何在有限的系统资源下,实现高效的数据输入输出(I/…

Java学习手册:Spring 生态其他组件介绍

一、微服务架构相关组件 Spring Cloud 服务注册与发现 : Eureka :由 Netflix 开源,包含 Eureka Server 和 Eureka Client 两部分。Eureka Server 作为服务注册表,接收服务实例的注册请求并管理其信息;Eureka Client 负…

VMware Workstation 创建虚拟机并安装 Ubuntu 系统 的详细步骤指南

VMware Workstation 创建虚拟机并安装 Ubuntu 系统 的详细步骤指南 一、准备工作1. 下载 Ubuntu 镜像2. 安装 VMware Workstation 二、创建虚拟机1. 新建虚拟机向导2. 选择虚拟机配置类型3. 加载安装镜像4. 系统类型配置5. 虚拟机命名与存储6. 磁盘容量分配7. 硬件自定义&#…

串口的缓存发送以及缓存接收机制

#创作灵感# 在我们实际使用MCU进行多串口任务分配的时候,我们会碰到这样一种情况,即串口需要短间隔周期性发送数据,且相邻两帧之间需要间隔一段时间,防止连帧。我们常常需要在软件层面对串口的发送和接受做一个缓存的处理方式。 …

时间交织(TIADC)的失配误差校正处理(以4片1GSPS采样率的12bitADC交织为例讲解)

待写…有空再写,有需要的留言。 存在失配误差的4GSPS交织 校正完成后的4GSPS交织

Linux进程间通信(二)之管道1【匿名管道】

文章目录 管道什么是管道匿名管道用fork来共享管道原理站在文件描述符角度-深度理解管道站在内核角度-管道本质 接口实例代码管道特点管道的4种情况管道读写规则应用场景 管道 什么是管道 管道是Unix中最古老的进程间通信的形式。 我们把从一个进程连接到另一个进程的一个数…

Xilinx FPGA | 管脚约束 / 时序约束 / 问题解析

注:本文为 “Xilinx FPGA | 管脚约束 / 时序约束 / 问题解析” 相关文章合辑。 略作重排,未整理去重。 如有内容异常,请看原文。 Xilinx FPGA 管脚 XDC 约束之:物理约束 FPGA技术实战 于 2020-02-04 17:14:53 发布 说明&#x…

家用服务器 Ubuntu 服务器配置与 Cloudflare Tunnel 部署指南

Ubuntu 服务器配置与 Cloudflare Tunnel 部署指南 本文档总结了我们讨论的所有内容,包括 Ubuntu 服务器配置、硬盘扩容、静态 IP 设置以及 Cloudflare Tunnel 的部署步骤。 目录 硬盘分区与扩容设置静态 IPCloudflare Tunnel 部署SSH 通过 Cloudflare Tunnel常见…

分享5款开源、美观的 WinForm UI 控件库

前言 今天大姚给大家分享5款开源、美观的 WinForm UI 控件库,助力让我们的 WinForm 应用更好看。 WinForm WinForm是一个传统的桌面应用程序框架,它基于 Windows 操作系统的原生控件和窗体。通过简单易用的 API,开发者可以快速构建基于窗体…