大方泳嘉网站建设网站关于我们页面设计
web/
2025/10/2 10:01:23/
文章来源:
大方泳嘉网站建设,网站关于我们页面设计,如何备份一个网站,网站开发团队人员配置提出了一种基于人工智能深度强化学习算法的扩展性及智能性较高的智能选择模式。在人工智能深度强化学习 算法的基础上#xff0c;引入了动作抑制、四重 Q 学习 (QQL) 及归一化 Q-value 等机制#xff0c;研究并实现了在满足业务延迟要求及公平 性的原则下#xff0c;物联终端…提出了一种基于人工智能深度强化学习算法的扩展性及智能性较高的智能选择模式。在人工智能深度强化学习 算法的基础上引入了动作抑制、四重 Q 学习 (QQL) 及归一化 Q-value 等机制研究并实现了在满足业务延迟要求及公平 性的原则下物联终端更智能地选择其接入或切换边缘服务器。该方案减少了业务延迟提高了响应效率有助于提高业务 安全及运营管理水平。 关 键 词 人工智能 云边端 深度强化学习算法 边缘服务器 配电站房运检 中图分类号 TM18 文献标志码 A doi:10.12178/1001-0548.2022119 Research on Intelligent Selection Mode of Edge Server Based on Artificial Intelligence Deep Reinforcement Learning Algorithm LI Xiaojing1*, YANG Dongdong1, HAN Rundong2, YU Hua1, and YIN Chongzhi1 (1. Electric Power Research Institute of State Grid Shanxi Electric Power Company Taiyuan 030001; 2. Equipment Department of State Grid Shanxi Electric Power Company Taiyuan 030001) Abstract Based on the artificial intelligence deep reinforcement learning algorithm, this paper proposes an intelligent selection mode with high fairness, expansibility and intelligence. On the basis of the artificial intelligence deep reinforcement learning algorithm, innovative mechanisms such as action inhibition, quadruple Q- learning (QQL) and normalized Q-value are introduced. With the research results of this paper, the IoT (Internet of Thing) terminal can more intelligently select its access or handover edge server under the principle of meeting the service delay requirements and fairness. This scheme reduces service delay, improves service response efficiency, and has good value significance for improving service security and operation management level. Key words artificial intelligence; cloud edge end; deep reinforcement learning algorithm; edge server; operation inspection of distribution station building 近年来人工智能和物联网技术得到飞速发 展物联终端接入数量呈现几何级数增长相应的 物联网相关系统仍以终端感知数据采集及分析处理 为主信息化系统由传统的 C/S、B/S 架构逐渐 演进为云端系统结合边缘代理服务器的云−边−端 架构模式以提高业务处理前置化能力[1]。相对传 统技术架构而言云−边−端架构中部署边缘服 务器更有利于大量终端设备的接入以及结合运检 业务进行本地计算和处理降低业务对云端后台系 统的依赖性因为边缘服务器在物理上比传统云服务器 更靠近现场和客户同时可提供更低的网络延迟[2]。 由于边缘服务器在计算、存储和通信资源等方 面存在一定限制部署服务有限。当海量终端接入 后通讯及业务处理并发量大时存在着由于数据 计算和业务处理需排队导致堵塞延时的问题甚至 宕机等风险[3]。由此提出在现场部署多个边缘服务 器或在附近区域租用云服务器做边缘处理构建边 缘服务器集群。由于现场并发通讯的终端数量较 多如何选择最佳边缘服务器进行计算和业务处理 是研究的主要问题。以电网某配电站房运检业务为 收稿日期2022 − 04 − 26修回日期2022 − 08 − 30 基金项目国网山西省电力公司科技项目 (520530202002) 作者简介李小婧 (1992 − )女高级工程师主要从事人工智能、物联网等方面的研究. *通信作者李小婧E-mail594122581qq.com 第 52 卷 第 4 期 电 子 科 技 大 学 学 报 Vol.52 No.4 2023 年 7 月 Journal of University of Electronic Science and Technology of China Jul. 2023 例当本地的边缘服务器已发生通讯堵塞或宕机问 题时常见的解决方案会将终端切换到有足够容量 且延迟最低的边缘服务器[4]。 由此本文利用人工智能 (AI)提出采用深度 强化学习 (RL) 算法的边缘服务器智能选择方法来 构建 Q 平衡网络该网络具备高度动态匹配、高 度智能选择、最低延迟等优点。由于 RL 算法特别 适合高度变化的环境本文基于该算法引入动作 抑制、四重 Q 学习 (QQL) 和 Q 值归一化等机制 构建了终端−服务器匹配延迟方差的强化学习模 型提出智能选择边缘服务器的具体解决方案。该 方案在终端设备尤其并发数超标或边缘服务器宕机 后终端设备快速选择最优的边缘服务器进行智能 切换同时减轻延时等风险问题实现了边缘服务 器在满足延迟要求下的智能动态选择切换同时考 虑到了公平性策略[5]。本文研究不仅更好地解决了 海量终端接入及大并发时导致的边缘服务器堵塞延 迟甚至宕机等风险同时对边缘服务器提供了更加 科学合理的部署策略以减少服务器的数量。 1 主要问题及研究思路 1.1 主要问题 对于服务器的选择和配置方法国内外开展了 较多研究如文献 [6] 提出优化切换镜像服务器后 减少整体用户延迟文献 [7] 提出了用户−服务器 匹配算法利用系统最大化处理能力使用户切换到 不同的服务器上达到整体延迟优化文献 [8] 提出 中值优化方法减少视频流端到端传输延迟优化问 题文献 [9] 提出在客户端使用域名系统 (DNS) 代理并采用负载均衡功能选择延迟最低的内容分 发网络 (content delivery network, CDN)以供客户 端选择合适的 CDN 服务器文献 [10] 结合遗传算 法进行移动边缘计算中的服务选择以减少时延。 但上述常见方法只考虑了减少延迟并未实现高度 动态化、智能化、公平化[11]。 以图 1 终端−服务器拓扑图为例U、EN 和 DEN 分别为终端、边缘节点 (单个边缘服务器) 和 委托的边缘节点[12]。EN 和 DEN 是配电站房运检系 统中的一部分DEN 是终端首次链接的边缘节点 EN当发生终端设备切换 EN 时服务器选择算 法在 DEN 中运行并由 DEN 给出终端该链接或切 换的 EN。EN EN DEN U U U U U U U U U U U U U U U DEN DEN 50 ms 50 ms 图 1 终端−服务器拓扑图 一个 EN 可处理多个终端但其容量有限尤 其高并发时系统必须确保终端和 EN 之间的延迟不 超过本设备指定的延迟阈值。如若有一些终端一起 同时上报数据并且 EN 同时针对终端进行业务处 理假设其端到端的延时阈值为 100 ms那么任 何终端与其 EN 之间的单向延迟不能超过 50 ms 因此给出 50 ms 的半径到每个 EN。此外系统须 确保终端在会话中所经历的延迟彼此尽可能接近 即终端间延迟变化最小以提供公平的处理能力和 竞争环境[13]。从图中可以看出黑色终端可以连接 到本地及相邻的多个 EN考虑到多 EN 选择和延 迟阈值、最大容量等约束条件需充分考虑如何有 效解决多变量优化问题如终端设备会因上电\关 机\重启动态接入每类终端设备需满足延迟阈值 要求EN 达到处理瓶颈时引发堵塞甚至宕机等问 题动态部署或删除 EN 时系统能否灵活、合理 地将终端设备分配到合适的 EN 成为挑战[14]。 本文中的终端−边缘服务器匹配的公平性原则 主要指早接入的终端拥有更高的优先权以及更低的 延迟分配资源进行数据和业务处理相对后接入的 终端存在相对意义上的“不公平”。为此本文使 用 RL 并提出了一种智能选择方案该方案提供了 更高的公平性同时也能更好地减少延迟。 1.2 研究思路 针对上述问题描述为在满足延迟的条件下 实现动态化、智能化、公平化的终端−边缘服务器 选择本文主要围绕以下两项内容展开研究。
边缘服务器选择模式研究。当终端切换边缘 服务器时公平性问题就突显出来。已接入的终端 与后接入的终端相比具有较大的优势因为存储、 计算及网络资源有限已接入的终端比后者能更快 地接收在线实时数据并占用更多的资源进行本地 计算和业务处理且当警告产生时能更快与声光 第 4 期 李小婧等基于人工智能 RL 算法的边缘服务器智能选择模式研究 589 设备进行联动报警。而后接入的终端会因为排队等 机制会将延迟效应进行积累。因此需研究更智能 更公平的新型选择模式。RL 强化学习算法研究。RL 算法提出将奖 励的方差最小化旨在充分考虑了系统性能、合理 性及安全性后在强化学习过程中将奖励最大化[15]。 文献 [16] 提出了一种 RL 算法分类具有安全系数 折现的机制并通过外部知识和风险进行指导纠 正该方法虽然预期的效果有可能很好但由于风 险值与环境的随机性有关可能会出现较大的负面 结果因此不适合本文场景。 对此本文使用终端和边缘服务器之间的地理 距离作为延迟的参考指标提出了两组次优匹配概 念设计了减少距离方差的方法[17]。针对公平性问 题本文借鉴了动作消除网络 (action elimination network, AEN) 即 一 种 利 用 两 个 神 经 网 络 的 系 统一个包含 Q 函数的近似值、另一个同时学习 消除动作提出了减少延迟变化的方法[18]。该方法 输出一个线性上下文模型并以高概率值来抑制动 作。在该方式基础上本文改进了 Q-table 技术 通过线性向量来指示动作是否可用文章用固定的 或学习的矢量值来处理动作的可用性。 2 主要研究内容 针对前述问题本文采用 RL 技术尤其是 Q- learning 算法开展模型研究由于其具有较好的灵 活性和动态性也称为 Q 平衡网络。常规的 Q- learning 模型通常会选择最近的边缘服务器即使 其容量已到上限。本文将采用新技术应用于 Q- learning 算法通过设计一个带奖励值的 Q 学习模 型以实现终端设备智能公平选择边缘服务器。使 用 RL 将 终 端 设 备 加 入 网 络 这 一 过 程 称 为“状 态”将接入这些终端设备的可用边缘服务器称为 “动作空间”本文将“动作”与“选择服务器” 和“状态”与“终端”同义地关联起来[19]。 2.1 动作抑制 2.1.1 原理 由于服务器计算能力有限一段时间后边缘 服务器处理能力将达到上限一些预期动作在服务 器某一时间点后将不可用。因此必须考虑动作发 生后更新 Q-values 时服务器的可用性否则若奖励 产生后仍使用即将不可用的服务器将导致消极恶性 结果影响后续终端的接入。区别于现有的动作屏 蔽算法当动作发生后奖励也随即产生。动作抑 制算法能将预期动作及奖励完全移除该技术不仅 能将不可用的服务器从备选状态中过滤掉也有能 力预测并选择期望的动作哪怕其 Q-values 不是最 高。算法 1 对该技术进行了相关地说明。 算法 1 典型代码 1Q-learning 动作抑制算法 initialize Q(s, a) for all s ∈ S, a ∈ A(s), arbitrarily. define Aavailable for all possible a ∈ A(s) set Q(terminal state,•)0 for each episode do initialize s repeat (for each state of the episode) choose highest a for s using policy derived from Q(e.g., −greedy) while a /∈ Aavailable do choose next highest a using the same policy take action a, observe r, s’ (according to a reward function) remove a from Aavailable if limit is reached Q(s, a) ← Q(s, a) α[r γ • maxaQ(s’, a) − Q(s, a)] s ← s’ until s is terminal and Aavailable isn’t empty 2.1.2 技术实现 技术实现的主要思想是在学习过程中抑制不可 用情况。通过设计并使用可用操作集表来引导下一 个动作并跟踪在下一次迭代中可能采取的动作 选择最高的动作 Q-value同时算法会分析服务器 是否可用若不可用会选择下一个最高的动作 Q- value。一旦服务器的容量达到最大值在下一次 迭代之前将其从操作集中删除。另外算法将根据 概率值 1−ε选择动作。在某些情况下抑制动作会 加强 Q-learning 中的探索。由于被淘汰的动作可能 是最常被选中的动作之一在后续迭代中被选中的 概率较高。因此需设计从可用动作中删除高概率 已选择过的动作而选择次优的算法即根据预期回 报总和探索其他次优动作既不采取随机动作也不 使用最佳动作而是介入两者之间的动作。 需要注意的是 RL 实体首先将进行离线训练 以获得有关环境的知识和训练策略参数以更接近最 优策略。在这个阶段算法将简单获得有关如何匹 配和如何获得服务器与终端公平分配的知识。当模 型部署并在线训练时算法可能会惩罚某个终端− 服务器的分配在不好的状态下不再采取匹配动 作。如果匹配时处于一个好的状态则可以减轻处 罚这样“惩罚”或 Q-value 将逐步调整并收敛到 590 电 子 科 技 大 学 学 报 第 52 卷 其真实值以反应为未来训练中的预期奖励。 2.1.3 正则化效果 神经网络的 Dropout 概念和方法通过随机神 经元的输出乘以零以防止过度拟合。Q-learning 中 的抑制动作与神经网络中的 Dropout 方法类似。由 于在 Dropout 中某些神经元被丢弃并且其输出被忽 略删除动作类似于将 Q-value 与零相乘并忽略其 对选择下一步操作的影响。通常这会在训练中执 行某种形式的正则化在动作和状态空间很大的情 况下是难以避免的[20]。 2.1.4 动作抑制的影响 消除网络可能会对后续构建更多的复杂算法并 在网络上产生后续影响被淘汰的动作表明其在某 些场景的需求量很大这些重要信息可以保留下 来用来对边缘服务器的部署提供建议或构建一 个更智能的代理来学习和预测网络的下一个状态。 当所在的边缘服务器发生过载时其剩余容量可供终 端选择。此外需重要考虑的是参数“有效性”应 被设计为可固定的也可以是能学习的。在程序 中使用了服务器的固定容量来标识可用性但当 服务器的任务和请求接近容量上限时也可以学习 该值以消除过载的服务器。 2.2 Q 模型 本文将公平性定义为按终端设备与之接近的平 均地理距离进行边缘服务器匹配。因此本文在 Q-learning 模型中需定义一个全局变量 D 代表距 离的集合。该全局变量会在每次迭代时更新并反 映在动作的奖励中。为了在公平选择的背景下给出 奖励设计了 4 个不同的奖励函数以及 6 个模型。 为将距离最小化对所有的模型对距离的求和值给 出负奖励。负奖励将驱使所有代理选择能最小化距 离集总和值的动作并影响其动作的 Q-value 值。 模型设计如下。模型 1 (奖励 −1 ×d)d 是已匹配的终端与 边缘服务器的距离为训练代理尽可能减少地理距 离将奖励值设为 d 的负值即为−1×d。地理距 离最低时Q-value 最高。关于终端 (U) 与边缘服 务器 (E) 之间的地理距离计算以经纬度计算公式为d √(elong − ulong)2 (elat − ulat)2 (1)模型 2 (奖励 −1× stdv (D))通过将奖励设 置为当前连接距离的当前方差值 STDV 的负值来减 少距离的全局平均值。由于代理的选择会影响平均 值的变化因此将奖励设置为将训练实体做出使距 离的全局 STDV 值最小化的选择从而使匹配的终 端和服务器地理距离更接近平均值。模型 3(奖励 −1× Δ stdv (D))为促使距离 STDV 波动的发生模型 3 给出与其采取的动作引 起 STDV 变化成正比的负奖励。当代理采取动作 时模型会对延迟的 STDV 造成的变化给出惩罚。 这将鼓励采取过多会导致 STDV 波动较小。模型 4 (奖励 −1× |Δ 标准差 (D)|)区别于 模型 3STDV 采用了变化的绝对值即可以是负 值或正值但目标是将 STDV 的变化最小化。模型 5(组合模型 QQL)为了减少距离方差及 变化组合上述所有模型方法。受多表 Q-learning 学习工作的启发[21]模型 5 查看 4 个 Q-tables 的各 自状态从中选择最高的 Q-value该想法类似于 双 Q-learning区别为双 Q-learning 是单目标使 用相同的奖励模型而本文是多目标并且是从多 个奖励模型中进行选择。4 个模型中的每一个都会 为代理所处的状态选择一个动作QQL 将选择带 来最高 Q-value 的动作。模型 6(最小值−最大值归一化模型)上述模 型涉及 4 个奖励函数在每个表中都有不同的尺度。 如 Model 1 使用实际距离作为奖励而 Model 4 使用 STDV 的变化作为奖励。为达到最佳的公平性效果 模型 6 公平地比较了 QQL 中具有不同尺度的 4 个 Q-table并进行了最小值−最大值归一化处理。该方法 类似于局部响应归一化 (LRN) 理论[22]。LRN 将 4 层 CNN 在 CIFAR-10 数据集上的有效性从 13% 的测 试误差减少到 11%。因此对 Model6通过使用最小 值−最大值计算来对 4 个表的 Q-values 按 01 的范 围归一化。模型 6 为本文研究所推进的最佳模型 具体设计参见图 2Q-table 中每一行表示每个状态 的 Q-values 值最小值−最大值归一化的计算公式为xnormi j xi j − xmini xmaxi − xmini ∀i ∈ rows∀ j ∈ columns (2) 2.3 Q 表扩展性设计 由于 Q-learning 初始设计为处理有限和预定义 的动作和状态空间需对其开展扩展性和实用性改 进因终端和边缘服务器可能会动态的增加或减 少而固定大小的 Q-table 无法动态增加。为解决 该问题通过构建了一个估算函数去获得当前 Q- table 新的状态和新的动作。该估算函数将相邻终 端的状态及其服务器的动作所对应的 Q-values 平均 化形成并插入一条新的记录。为进一步提高上述 扩展性将 Q-table 实现为动态哈希图也称为字 典或哈希表用以实现对表的快速高效地查找、增 加和删除[23]。 第 4 期 李小婧等基于人工智能 RL 算法的边缘服务器智能选择模式研究 591 3 实验及性能评估 3.1 数据收集 首先在每台边缘服务器上运行了一个收集每 个 终 端 的 延 迟 、 抖 动 、IP 地 址 和 位置 (经 、 纬 度) 的脚本并将记录结果存入到 CGCSDD 数据 集。在模拟测试中153 个终端分布在某一个虚拟 区 域 。 如图 3 所 示 在 终 端 附 近 随 机 模 拟 部署 153 个边缘服务器并开展了仿真实验。边缘服务器 终端 图 3 终端节点及服务器随机分布图 3.2 实验与仿真 通过执行脚本将 153 个终端分配到 153 台边 缘服务器上后无论每个终端有没有指定到最优的 边缘服务器都会导致会话量大理论上会产生 1532×10 269 个可能匹配的数量。在训练过程 中采用超参数解决 RL 的范围问题并指定在表 查询中使用超参数进行算法优化。本实验和模型中 所用的超参数采用以下各值学习率 α 0.1奖 励折扣因子 γ 0.6探索因子 ε 0.1训练持续 时期 100 000。 本文在传统方法的基础上又构建了 3 种锚方 法力图将延迟最小化而不仅是延迟的方差同时 尽量减少延迟的变化。具体描述如下。锚点 1 是实践中最常用的方法通过将终端 匹配到最近的边缘服务器 (基于地理距离)该服务 器具有留给新终端的容量。锚点 2 将终端匹配到第二近的可用边缘服务 器。这种方法会将“最佳”服务器信息保存起来以 匹配后续需接入的终端。锚点 3 将前一半的 76 个终端匹配到距离范 围 50% 以内的边缘服务器 (即第 75 个最近的边缘 服务器)同时将另一半终端匹配到最近的边缘服 务器。传统方法的主要目的是减少方差其原理 为①对第一个终端找到该节点与任何边缘服务 器之间的最低和最高延迟并将这两个值计算平均 值 dconv然后将该节点连接到 dconv 最接近的边 缘服务器②对接下来的每个节点将其连接到延 迟与 dconv 最接近的边缘服务器 (dconv 参见步骤 ①只计算一次)。 图 4 为采用了锚点方式、传统方式、本文模 型 6 方式所测试的终端−边端服务器地理距离分布 效果图。表 1 为各模型及方式的延迟测试结果在 锚点 2 和锚点 3 中稍微降低了方差的同时也增加 了平均值锚点 2 具有最佳方差。 传统方法的结果取决于第一个选择的节点它 决定了 dconv 值。因为算法运行了 153 次每次都 从不同的节点开始根据 3 个典型 dconv 值最减少延迟方差值 减少延迟方差的绝对值 减少延迟方差值的变化 状态 S 奖励 R 实体 有效动作 动作 A 环境 动作抑制 模型 1 (奖励−1d) 模型 2 (奖励−1stdv (D)) 模型 3 (奖励−1Δstdv (D)) Sn Q1 Q2 Q3 Q4 LRN a1 a2 a2 终端-边缘服务器 智能分配 Max a3 a4 模型 4 模型 3 Q-values 标准化 模型 2 模型 1 模型 4 (奖励−1|Δ标准差 (D)|) 多重 Q-leaming 算法 图 2 系统设计概略图 592 电 子 科 技 大 学 学 报 第 52 卷 低、中间、最高选择了 3 个案例开展测试及
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/85562.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!