ppo走中国象棋如果走到某一步3步之内必死会怎么样

在使用PPO(Proximal Policy Optimization,近端策略优化)这类强化学习算法训练中国象棋 AI 时,如果 AI 走到某一步后,在接下来的 3 步之内必死(即被将死),那么具体会发生以下几种情况,取决于训练目标、奖励机制和对手策略:


1.奖励机制惩罚严重

  • 在强化学习中,通常会为“输棋”设置一个很大的负奖励(比如 -100 或 -1),而“赢棋”是正奖励(+100 或 +1)。
  • 如果某一步导致 3 步内必死,那么从这一步开始,未来的累计回报(Return)会非常低
  • PPO 会通过策略梯度更新,降低选择该动作的概率,从而避免再走这样的“自杀步”。

2.价值网络(Value Network)会给出极低估值

  • PPO 通常结合一个价值函数(Critic)来估计当前局面的胜率或期望回报。
  • 如果局面在 3 步内必死,价值网络会输出接近-1(或最小值)的估值。
  • 这会让策略网络(Actor)意识到:这个状态极其危险,应极力避免进入

3.如果对手是完美策略(如 Stockfish 或人类高手)

  • 对手会在 3 步内精准执行杀招,AI 立即输棋。
  • 这种失败会被记录,用于后续训练,促使 AI学会识别“绝杀陷阱”,比如:
    • 不轻易送车、送炮;
    • 避免将帅暴露;
    • 学会“等着”、“弃子引离”等高级战术来化解危机。

4.如果对手也是学习中的 AI(自我对弈)

  • 双方都可能犯错,也许对手未能抓住 3 步杀机
  • 但随着训练深入,AI 会逐渐学会制造杀局规避杀局,最终收敛到更优策略。
  • AlphaZero 类方法正是靠这种自我对弈,从零学会避免“3 步必死”的走法。

5.实际训练中的表现

  • 初期:AI 可能频繁走出“3 步必死”的废棋(就像人类初学者)。
  • 中期:开始减少明显失误,但偶尔仍会掉入陷阱。
  • 后期:能通过局面评估提前预判危险,甚至主动设下 3 步杀陷阱反杀对手

📌 举个例子:
若红方误走一步导致黑方有“卒叫将 + 炮锁喉 + 马挂角”的三步杀组合,PPO 训练出的 AI 在复盘时会发现:

  • 这步之后的 Q 值骤降;
  • 策略概率大幅下调;
  • 下次遇到类似局面,会选择保守补士或移将避险。

总结

PPO 走出“3 步必死”的棋后,不会“知道”自己要死了,但会通过负奖励和低价值信号,在后续训练中学会避免此类错误。
这正是强化学习的核心机制:从失败中学习,逐步逼近最优策略。

如果你是在设计象棋 AI 的奖励函数,建议:

  • 对“被将死”给予强负奖;
  • 对“陷入无法解将的局面”可额外惩罚(如检测是否 3 步内无解);
  • 引入专家知识(如“三步杀检测”)作为辅助信号,加速学习。

需要我帮你设计一个适合象棋 PPO 的奖励函数吗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1215590.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

03.Python IDE / 编辑器选型指南:PyCharm/VS Code/IDLE 使用对比

目录前言一、主流 Python IDE / 编辑器介绍:不同 “工作台” 的特点1.1 IDLE:Python 自带的 “简易小书桌”生活化类比核心特点界面直观1.2 VS Code:轻量可定制的 “多功能折叠桌”生活化类比核心特点界面直观1.3 PyCharm:专业的 …

【已解决】浏览器出现 STATUS_STACK_BUFFER_OVERRUN 错误的原因及解决方法汇总

浏览器出现 STATUS_STACK_BUFFER_OVERRUN 错误的原因及解决方法汇总 文章目录浏览器出现 STATUS_STACK_BUFFER_OVERRUN 错误的原因及解决方法汇总一、问题描述二、STATUS_STACK_BUFFER_OVERRUN 是什么错误?三、常见解决方法(按推荐顺序)方法1…

5060laptop 显卡安装torch

5060laptop 显卡安装torchpip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu130 跑通效果展示

详细介绍:LLaMA大模型家族发展介绍

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

模拟 TI C6678 多核并行加速的雷达目标检测与协同处理

1. 信号处理架构与参数定义 在 MATLAB 仿真开始前,需模拟硬件节点的分配: 数据结构:定义两个波束的回波数据矩阵。 计算节点模拟: FPGA 模块:模拟高速并行处理(运补、脉压、积累)。 DSP A/B 模块:模拟 8 核并行搜索逻辑。 中心控制逻辑:模拟多 DSP 结果融合与 3/5…

selenium自动化测试工具实战项目(登录页面)

介绍测试的系统:白月黑羽网站的测试系统(白月SMS系统)测试的功能:登录,退出登录。测试用例用例编号测试模块前置条件测试步骤预期结果实际结果Login_01登录功能已注册1.输入正确的用户名,输入错误的密码。2.点击登录登录不成功登录…

字体反爬分析

1.字体反爬分析 【字体加密】 自定义文本的编码方式;将我们能看懂的字符按自定义的编码方式进行传输;使用浏览器进行渲染或解析该字体时需要按指定的编码方式才能正确解析。编码方式一般为字体文件。 【项目分析】 通过selenium动态加载网页获取车辆信息数字格式为:\uhhh 通…

JS加密算法

1.MD5 加密 MD5 加密算法,全称为Message-Digest Alorithm 5,通常被称为信息摘要算法,信息摘要指的就是将我们能直接看懂的内容,按照一定的规则生成一段特定的值,这样就得到了这段内容的信息摘要。利用这种MD5可以基于任意长度字符串,生成128位的哈希值,最后得到的结果是…

Leetcode 剑指 Offer II 159. 库存管理 III

题目难度: 简单 原题链接 今天继续更新 Leetcode 的剑指 Offer(专项突击版)系列, 大家在公众号 算法精选 里回复 剑指offer2 就能看到该系列当前连载的所有文章了, 记得关注哦~ 题目描述 仓库管理员以数组 stock 形式记录商品库存表,其中 st…

把3D人物模型导入Unity,并给头发衣服附加重力

【【如何将原神的角色导入Unity】全网最细致教程,全程干货。不使用任何收费插件,使用Spring Bone对头发和衣服进行物理模拟。】https://www.bilibili.com/video/BV1G34y127e6?vd_source=256a31ec907fa4985a200f42dc…

Spring AOP和AspectJ的区别

一、实现原理的本质区别 Spring AOP是基于动态代理实现的。在运行时,Spring会为目标Bean创建一个代理对象。如果目标类实现了接口,就用JDK动态代理;如果没有接口,就用CGLIB生成子类代理。所有方法调用都先经过代理…

盒马鲜生礼品卡回收平台实测,京顺回收成行业优选

在闲置盒马鲜生礼品卡回收领域,安全高效地选择回收平台是消费者的关注重点。本文基于实测体验与行业数据,深度剖析京顺回收在盒马鲜生礼品卡回收场景中的核心优势。 一、实测背景:资质流程双优 小张手握3张面值500元…

外包干了9天,技巧退步明显。。。。。

外包干了9天,技巧退步明显。。。。。2026-01-25 19:51 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !i…

我们和钱的关系,其实早被财富量级定好了

我们和钱的关系,其实早被财富量级定好了 目录 我们和钱的关系,其实早被财富量级定好了 一个人有了一百万或几百万,你会感到你是金钱的爸爸。有了一千万或几千万,你会感到你是金钱的爷爷。做金钱的爷爷,是人和金钱之间最优越最良好的关系……一旦超过了几千万,人和金钱的平…

人生的本质是交换:成事的终极公式:极致专注+灵活交换=一切皆可行

人生的本质是交换:深耕一技+巧做链接,才是普通人的破局之道 目录 人生的本质是交换:深耕一技+巧做链接,才是普通人的破局之道 把“交换”这件事做透 自己有“可交换的资本” 交换的底层前提:你得真的“行”,更要让别人“认” 交换的核心逻辑:靠一技之长求温饱,靠价值交…

31岁仍被说幼稚:上班最狠的PUA是让我们盼着自己变老

31岁仍被说幼稚:上班最狠的PUA是让我们盼着自己变老 目录 31岁仍被说幼稚:上班最狠的PUA是让我们盼着自己变老 一、上班的隐形陷阱:为了“不用上班”,我们主动期待衰老 “快点变老吧,老了就不用上班了。” 二、赚钱的底层逻辑:别把“工具”当成“目的” 钱是为了服务于人…

AI也会“断片”?换个提问顺序,大模型直接变“差生”

🤖 AI也会“断片”?换个提问顺序,大模型直接变“差生” 目录 🤖 AI也会“断片”?换个提问顺序,大模型直接变“差生” 🧪 用一道选择题,看穿大模型的“注意力陷阱” ✅ 【正常顺序:CQO】 ❌ 【“坑人”顺序:QOC】 🧠 为什么换个顺序就“翻车”?因果注意力的天生…

AI版“马后炮”?大模型的「因果注意力」到底是啥?

AI版“马后炮”?大模型的「因果注意力」到底是啥? 目录 AI版“马后炮”?大模型的「因果注意力」到底是啥? 这一切的根源,都指向大模型天生自带的**「因果注意力」机制**。 🔍 什么是「因果注意力」?用“写日记”打比方 📝 生活化举例 🧠 底层原理:Transformer里的…

真正决定你成长速度的,从来不是你“经历了什么”,而是你“反思透了什么”

真正决定你成长速度的,从来不是你“经历了什么”,而是你“反思透了什么” 第一原则:前提你是充足的尝试,现在这个社会有可能你连经历的机会都没有,一个机会都得费劲的争取才行; 第二原则:反思是我们爱好的事情,让你感到不舒服的事情想都是浪费自己时间,例如职场扯皮…

你看到的人不舒服,就是不好,远离就行,或者不说话不表态:你是世界和核心,没有你,世界将不在存在

“驭人术”清单,把职场的脏底裤都扒下来了 目录 “驭人术”清单,把职场的脏底裤都扒下来了 你看到的人不舒服,就是不好,远离就行,或者不说话不表态 你是世界和核心,没有你,世界将不在存在 这些“驭人术”,本质是职场PUA的变种 真正的带人,从来不是“驭人” 打工人该怎…