自己搭建一个网站需要多少钱?手机网站搭建教程

news/2025/10/3 15:54:16/文章来源:
自己搭建一个网站需要多少钱?,手机网站搭建教程,WordPress最好用编辑器,wordpress进不后台来源#xff1a;AI前线作者#xff1a;Ben Dickson译者#xff1a;盖策划#xff1a;凌敏本文来自 BDTechTalks 网站的“AI 研究论文评论”专栏。该专栏提供人工智能最新发现的系列解读文章。尽管人工智能研究人员正力图建立能在围棋、星际争霸到 Dota 等复杂游戏中击败人类… 来源AI前线作者Ben Dickson译者盖策划凌敏本文来自 BDTechTalks 网站的“AI 研究论文评论”专栏。该专栏提供人工智能最新发现的系列解读文章。尽管人工智能研究人员正力图建立能在围棋、星际争霸到 Dota 等复杂游戏中击败人类专家的强化学习系统但如何创建出能与人类开展合作而非竞争的强化学习系统是人工智能正面临的更大挑战。在一篇由 DeepMind 的人工智能研究人员最新预发布的论文中提出了一种称为 FCPFictitious Co-Play虚拟合作的新方法。该方法实现智能体与不同技能水平人类间的合作无需人工生成数据训练强化学习智能体agent。论文已被今年的 NIPS 会议接收。论文通过使用一款称为 Overcooked 的解谜游戏进行测试结果表明在与人类玩家的组队合作中FCP 方法创建的强化学习智能体表现更优混淆度最低。论文结果可为进一步研究人机协作系统提供重要方向。论文地址https://arxiv.org/abs/2110.08176训练强化学习智能体强化学习可持续无休地学习任何具有明确奖励award、动作action和状态state的任务。只要具备足够的计算能力和时间强化学习智能体可根据所在的环境environment去学习出一组动作序列或“策略”以实现奖励award的最大化。强化学习在玩游戏中的有效性已得到很好的证明。但强化学习智能体给出的游戏策略通常并不能很好地匹配真人队友的玩法。一旦组队合作智能体执行的操作会令真人队友大感困惑。由此强化学习难以应用于需各方参与者协同规划和分工的场景。如何弥合机器智能与真人玩家间存在的鸿沟是人工智能社区正面对的一个重要挑战。研究人员正致力于创建各种强化学习智能体达到能适应包括其它强化学习智能体和人类在内的各合作方的行为习惯。图 1 强化学习智能体的多种训练方法SP 方法 (self-play左右互搏法) 是游戏使用的经典强化学习训练方法。该方法让强化学习智能体与自身的一个副本持续对战能非常高效地学习出实现游戏奖励最大化的策略。但该方法的问题在于所生成的强化学习模型会过拟合智能体自身的游戏玩法导致完全无法与使用其他方法训练的玩家合作。另一种训练方法是 PP 方法 (popuation play群体参与法)它在强化学习智能体训练中引入了多种具有不同参数和结构的队友模型。尽管在与真人玩家合作的竞技游戏中PP 方法要明显地优于 SP 方法但其依然缺乏应对“共同收益”common-payoff场景下的多样性diversity问题。“共同收益”指玩家必须协同解决问题并根据环境变化去调整合作策略。第三种方法称为 BCP 方法 (behavioral cloning play行为克隆法)它使用人工生成的数据训练强化学习智能体。有别于在环境中随机选取起始点BCP 方法根据采集自真人玩家的游戏数据去调整模型参数使智能体生成更接近于人类玩家游戏模式的行为。如果可以采集具有不同技能水平和游戏风格玩家的数据那么智能体就能更灵活地适应队友的行为更有可能与真人玩家很好地配合。然而 BCP 方法的挑战性在于如何获取真人数据特别是考虑到要使强化学习模型达到最佳设置通常所需的游戏量是人工所无法企及的。FCP 方法DeepMind 新提出的强化学习 FCP 方法其关键理念是在无需依赖于人工生成数据的情况下创建可与具有不同风格和技能水平玩家协作的智能体。FCP 方法的训练分为两个阶段。首先DeepMind 研究人员创建了一组使用 SP 方法的强化学习智能体分别在不同的初始条件下独立完成训练使模型收敛于不同的参数设置由此创建了一个多样化的强化学习智能体池。为实现智能体池中技能水平的多样化研究人员保存了每个智能体在不同训练阶段的快照。正如论文所述“最后一个检查点表示的是一个经完全训练的‘熟练’玩家而较早的检查点则代表技能尚不纯熟的玩家。需说明的是使用多个检查点实现各个玩家技能的多样性这并不会导致的额外训练成本。”第二个阶段使用池中所有的智能体训练出一个新的强化学习模型。新智能体必须达成策略上的调优才能实现与具有不同参数值和技能水平的队友开展协同。论文提出“FCP 智能体完全可以达到跟随真人玩家带队在给定范围的策略和技能中去学习出一个通用的策略。”测试 FCPDeepMind 的人工智能研究人员将 FCP 方法应用于解谜游戏 Overcooked。游戏玩家在网格化场景中移动与物体互动执行一系列步骤最终完成烹饪和送餐任务。Overcooked 的游戏逻辑简单并需要队友间的协作和工作分配因此非常适合测试。为测试 FCP 方法DeepMind 研究人员简化了完整的 Overcooked 游戏任务。他们精心挑选了一组具有多种挑战的地图包括强制协作和受限空间等。图 2 DeepMind 使用简化版 Overcooked 测试 FCP 方法研究人员分别训练了一组 SP、PP、BCP 和 FCP 智能体。为了比较各方法的性能他们首先组了三个队分别测试每种强化学习智能体类型即基于人类游戏数据训练的 BCP 模型、在不同技能水平上训练的 SP 智能体以及代表低水平玩家的随机初始化智能体。测试根据在相同数量剧集中所能提供的餐食数衡量各方法的性能优劣。结果表明FCP 方法的表现要明显优于其他强化学习智能体训练方法可以很好地泛化各种技能水平和游戏风格。出乎意料的是测试进一步表明了其他训练方法是非常脆弱的。正如论文所述“这意味着其他方法可能无法达到与技能水平一般的玩家组队。”图 3 对于强化学习智能体训练FCP 方法优于其他方法论文进而测试了每种类型的强化学习智能体在与人类玩家合作中的表现。研究人员开展了有 114 名人类玩家参加的在线研究其中每位玩家参与 20 轮游戏。在每一轮游戏中玩家与其中一种强化学习智能体组队但并不知道该智能体的具体类型随机进入一个厨房场景。根据实验结果“人类 -FCP”组队的性能要优于其他所有“人类 - 强化学习智能体”组队。每两轮游戏后参与玩家根据与强化学习智能体组队的体验给出一个 1 到 5 之间的评分。相对其他智能体参与玩家对 FCP 队友表现出明显的偏好。反馈表明FCP 智能体的行为更加连贯、更好预测适应性更强。例如强化学习智能体似乎具备了感知队友行为的能力在每个烹饪场景中选择了特定角色避免相互产生混淆。与之相比其他强化学习智能体的行为则被测试参与者描述为“混乱无章难以合作”。图 4 DeepMind 使用各种强化学习智能体与人类玩家组队下一步工作在论文中研究人员也指出了该工作的一些局限性。例如在 FCP 智能体的训练中只使用了 32 个强化学习合作队友。尽管这完全可应对简化版的 Overcooked 游戏但应用于更复杂的环境时可能会受限。DeepMind 研究人员指出“对于更复杂的游戏为表示足够多样化的策略FCP 所需合作伙伴的总体规模可能难以企及。”奖励定义是限制 FCP 应用于更复杂环境的另一个挑战。在简化版 Overcooked 中奖励是简单而且明确的。但在其他环境中强化学习智能体在获得主要奖励前必须去完成一些子目标。而智能体实现子目标的方式必须要与人类合作伙伴的方式保持一致。这在缺少人类数据的情况下是很难去评估和调优的。研究人员提出“如果任务的奖励函数与人类处理任务的方式非常不一致那么和所有缺少人类数据的方法一样该方法同样很可能会生成非最优的合作伙伴。”DeepMind 的研究可归为人机协作领域研究。在麻省理工学院科学家的一项最新研究中探索了强化学习智能体在与真人玩家玩纸牌游戏 Hanabi 中的局限性。DeepMind 提出的强化学习新技术在弥合人类和人工智能间鸿沟上取得了进步。研究人员希望其“能为未来研究人机协作造福社会这一重要挑战奠定坚实的基础。”原文链接 https://bdtechtalks.com/2021/11/22/deepmind-reinforcement-learning-fictitious-coplay/未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/926048.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CF2129 CF1951 VP 记录

非常好 hfu 开发的神秘打一场比赛改两场题,使我的国庆假期旋转. CF2129 Div1 B 逆序对考虑在较小的数处统计贡献,枚举序列里面每个数,一并枚举逆序对的另一个数. \(p_i\) 有贡献当且 \(i>j\),\(2n-p_i\) 有贡献…

PWN-BUUCTF-test_your_nc

BUUCTF-test_your_nc的WPpwn 题目题解 使用nc连接题目地址,输入ls查看目录。使用cat命令获取flag文件内容得到flag。总结 题目考察nc的使用方法本文来自博客园,作者:ffff5,转载请注明原文链接:https://www.cnblog…

做网站设计需要具备哪些重庆市工程建设服务中心

中国科学院自动化研究所智能交互团队在环境鲁棒性、轻量级建模、自适应能力以及端到端处理等几个方面进行持续攻关,在语音识别方面获新进展,相关成果将在全球语音学术会议INTERSPEECH2019发表。现有端到端语音识别系统难以有效利用外部文本语料中的语言学…

电商网站建设目标分析的方法淘宝客网站建设方案书

机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实 践是掌握机器学习的最佳手段。在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的 预测模型项目模板 不能只通过阅读来掌握…

Kafka Windows 安装启动与 YAML 配置全解析 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

昆明专业建站装修设计公司服务

参考链接 FFmpeg源代码简单分析:avcodec_close()_雷霄骅的博客-CSDN博客_avcodec_close avcodec_close() 该函数用于关闭编码器avcodec_close()函数的声明位于libavcodec\avcodec.h,如下所示。 ​该函数只有一个参数,就是需要关闭的编码器的…

使用rem布局的网站网站开发5人小组分工

. 单论品牌(主要以登山鞋及徙步鞋为主): 高级品牌:SCARPA、ASOLO、MONTRAIL、ZAMBERLAN、vasque、Lowa、La Sportiva 价格都较高,单价都在千元以上,品质一流,做工精细。 中档品牌:Tr…

详细介绍:计算机视觉:OpenCV+Dlib 人脸检测

详细介绍:计算机视觉:OpenCV+Dlib 人脸检测pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &qu…

怀化 网站建设国内网页加速器

文章目录 企业无线局域网部署最佳实践引言1. 无线网规划和设计a. 选择合适的频宽b. 网络规划工具c. 考虑物理环境d. 用户密度和需求e. 未来扩展f. 安全性和策略g. 测试和验证2. 无线局域网容量2.1 用户和设备预测2.2 应用流量分析2.3 带宽管理2.4 无线技术选择2.5 网络健康检查…

python 老生常谈的找2个excel相同列的行,把其中一个excel行的对应的值放入到另一个excel中

有个excel叫典型草原降水强度,还有个excel叫典型草原数浓度,这两个excel里面time和data_name列,time列里面的数据格式是YYYY-M-D空格H:S,data_name列里面是XXXX-时间戳,53192-20240510101700-20240510105559-0_N…

可信网站标识河南省考生服务平台官网

目录 服务端这么做服务端告知客户端使用 Basic Authentication 方式进行认证服务端接收并处理客户端按照 Basic Authentication 方式发送的数据 客户端这么做如果客户端是浏览器如果客户端是 RestTemplat如果客户端是 HttpClient 其它参考 服务端这么做 服务端告知客户端使用 …

wordpress建站优缺点服务中心网站建设意见

less 用来浏览超过一页的文件 用 / 可用来查找关键字 q键退出 cat -n 3.txt | less行号显示grep 文本处理工具,以行为单位找关键字 ls -l /boot | grep ^l grep 关键字 文件名 grep runlevel /etc/inittab 参数 -i忽略大小写 -n显示行号 -v排除关键字&#xff0…

【K8S】Kubernetes 调度器深度解析:原理与源码分析

@目录一、调度器架构概述1.1 核心架构设计1.2 调度器工作流程二、调度队列机制2.1 优先级队列实现2.2 Pod 优先级与抢占三、调度框架与插件系统3.1 框架扩展点3.2 插件注册与执行四、调度周期详细分析4.1 调度算法入口…

Elasticsearch MCP 服务器:与你的 Index 聊天 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

AI大事记4:从 ELIZA 到 ChatGPT—— 对话式 AI 的世纪征程(上) - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

堆叠集成

为了让你彻底理解堆叠集成模型(尤其是项目中针对时序数据和小样本场景的定制化设计),我会从“核心概念拆解(结合项目实例)→ 分阶段运作流程(附代码细节)→ 设计逻辑深层原因(对应项目痛点)”三个维度,逐点展…

深入解析:逻辑回归(Logistic Regression)

深入解析:逻辑回归(Logistic Regression)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "…

快速幂算法的基础和扩展

快速幂 快速幂(Fast Exponentiation)算法解决这样一个问题:求解自然数的指数运算。计算 \(a^b\) 时,按照指数定义的朴素的方法是通过连续相乘: \[a^b = \underbrace{a \times a \times \cdots \times a}_{b\text{…

网站模块名称移动端首页

学完本文,您将了解不同相机模型分类、内参意义,及对应的应用代码模型 标定的意义 建模三维世界点投影到二维图像平面的过程。标定输出的是相机模型。 相机模型 相机模型可以解理解为投影模型 +

概率与决策 - 模拟程序让你在选择中取胜

在人生中我们会处处面临抉择,是选择A还是选择B呢。作为程序员,看着这种概率与决策,有时候常在想,我怎么做决策我的胜率概率最大,能不能用程序来模拟一下。我选择A赢的概率,我选择B赢的概率呢?前言 在人生中我们…