网站推广策划的思路包括哪些内容广州网站建设功能

news/2025/9/27 18:29:11/文章来源:
网站推广策划的思路包括哪些内容,广州网站建设功能,模板网站做外贸可以吗,淘宝导购网站建设来源#xff1a;半导体行业观察摘 要在本项目中#xff0c;我们提出了一种基于学习的芯片布局方法#xff0c;这是芯片设计过程中最复杂#xff0c;最耗时的阶段之一。与以前的方法不同#xff0c;我们的方法具有从过去的经验中学习并随着时间的推移而不断改进的能力。特别… 来源半导体行业观察摘 要在本项目中我们提出了一种基于学习的芯片布局方法这是芯片设计过程中最复杂最耗时的阶段之一。与以前的方法不同我们的方法具有从过去的经验中学习并随着时间的推移而不断改进的能力。特别是当我们训练更多的芯片模块时我们的方法变得更擅长为先前未见的芯片快速生成优化的布局。为了获得这些结果我们将布局作为强化学习RL问题提出并训练代理将芯片网表的节点放置到芯片蓝图上。为了使我们的强化学习策略能够泛化到未见的芯片模块我们在预测布局质量的监督任务中放置了表征学习。通过设计一种可以准确预测各种网表及其布局上的奖励的神经体系结构我们能够对输入网表生成丰富的特征嵌入。我们将此架构用作我们的策略和价值网络的编码器以实现迁移学习。我们的目标是使PPA功率性能和面积最小化在不到6小时的时间内我们的方法可以生成具有媲美或超过人工的现代加速器网表上的布局而在同样条件下现有人类专家可能需要几个星期来完成同样的工作。一、介绍随着计算机系统和硬件的显着进步人工智能的快速进步得以实现. 但是随着摩尔定律和Dennard缩放技术的终结世界正朝着专用硬件发展以满足AI对计算的需求呈指数增长。然而当今的芯片需要花费数年的时间进行设计这使我们不得不为从现在起2-5年的机器学习ML模型进行优化而进行的推测性任务。大量缩短芯片设计周期将使硬件更好地适应AI迅速发展的领域。我们认为正是AI本身将提供缩短芯片设计周期的方法从而在硬件和AI之间建立起共生关系而两者之间又相互促进。在本文中我们提出了一种基于学习的芯片布局方法这是芯片设计过程中最复杂最耗时的阶段之一。目的是将宏例如SRAM和标准单元逻辑门例如NANDNOR和XOR的网表图布局在芯片画布上以优化功耗性能和面积PPA同时遵守对布局密度和布线拥塞的限制。尽管对此问题进行了数十年的研究人类专家仍然有必要使用现有的放置工具进行数周的迭代以产生满足多方面设计标准的解决方案。问题的复杂性来自网表图(graph)的大小数百万到数十亿个节点放置这些表图的网格的粒度以及计算真实目标指标所需的高昂成本以使用行业标准的电子设计自动化EDA工具评估单个设计, 也需要从几小时到几天。即使在将问题分解为更易于管理的子问题例如将节点分组为几千个群集并减少网格的粒度之后状态空间仍比最近成功的基于学习的方法所能处理的问题大几个数量级。为了解决该挑战我们将芯片布局作为强化学习RL问题在此我们训练代理例如RL策略网络以优化布局。在每次训练迭代中芯片块的所有宏都由RL代理顺序放置然后通过力导向方法(force-directed method)放置标准单元(Hanan Kurtzberg, 1972; Tao Luo Pan, 2008; Bo Hu Marek-Sadowska, 2005; Obermeier et al., 2005; Spindler et al., 2008; Viswanathan et al., 2007b;a). 训练由针对每个代理的芯片布局的快速但近似的奖励信号指导。据我们所知此次提出的方法是具有首个具有泛化能力的布局方法这意味着它可以利用从以前的网表布局中学到的知识为新的从未见的网表生成布局。我们证明尤其随着我们的代理接触到更大数量和更多种类的芯片它在为新的芯片块生成优化的布局方面变得既快又好这使我们更接近能为芯片设计者提供具有丰富的芯片布局经验帮助的人工智能的未来。我们相信我们的方法能够从以往经验中学习并随着时间的推移而改进从而为芯片设计人员开辟了新的可能性。我们证明与最新的基准相比我们可以在真正的AI加速器芯片Google TPU上实现出色的PPA。此外我们的方法可以在6小时内生成优于或媲美人类专家芯片设计人员的布局. 而现代芯片中数十个区块的每个区块的替代方案都需要人类专家花费数周的时间来获得新能最高的替代方案 。尽管我们主要在AI加速器芯片上进行评估但我们提出的方法可广泛应用于任何芯片布局优化。二、相关工作全局布局是芯片设计中的长期挑战需要对不断增长的复杂性进行多目标优化。自1960年代以来已经提出了许多方法迄今为止分为三大类1基于分区的方法2随机/爬山方法以及3解析求解器(analytic solver)。从1960年代开始工业和学术实验室对全局布局问题采用了基于分区的方法提出了Breuer1977; Kernighan1985; FiducciaMattheyses1982以及基于电阻网络的方法Chung -Kuan Cheng和Kuh1984Ren-Song Tsay等人1988。这些方法的特点是分而治之。递归地划分网表和芯片画布直到出现足够小的子问题为止此时使用最佳求解器将子网表放置到子区域上。这样的方法执行起来非常快并且它们的层次结构性质允许它们扩展到任意大的网表。但是通过隔离地优化每个子问题基于分区的方法牺牲了全局解决方案的质量尤其是路由拥塞问题。此外较差的早期分隔可能导致无法挽回的最终布局。在1980年代出现了分析方法但很快被随机/爬山算法取代特别是模拟退火(Simulated annealing)Kirkpatrick等1983; Sechen和Sangiovanni-Vincentelli1986; Sarafzadeh等2003。模拟退火SA的名称类似于冶金其中先加热金属然后逐渐冷却以诱导或退火能量最佳的晶体表面。SA将随机扰动应用于给定的位置例如宏的移位交换或旋转然后测量其对目标功能的影响例如第3.3.1节中所述的半周线长。如果微调是一种改善则将其应用如果不是它仍然以某种可能性应用称为温度。将温度初始化为特定值然后逐渐退火至较低值。尽管SA产生了高质量的解决方案但它非常缓慢且难以并行化因此无法扩展到1990年代及以后日益大型和复杂的电路。1990年代至2000年代的特征是采用多层划分(multi-level partitioning) 方法Agnihotri等人2005; Roy等人2007以及分析技术的复兴如力导向(force-directed)方法Tao LuoPan2008; Bo HuMarek-Sadowska2005; Obermeier等2005; Spindler等2008; Viswanathan等2007b; a和非线性优化器(non-linear optimizers)Kahng等2005; Chen等。2006。二次方法(quadratic methods)的更新成功部分归因于算法的进步也归功于现代电路的大尺寸10-1亿个节点这证明了将放置问题近似为放置面积为零的节点是合理的。但是尽管二次方法的计算效率很高但与非线性方法相比它们的可靠性通常较低并且产生的质量较低的解决方案.非线性优化使用平滑的数学函数来估算成本例如线长的对数总和William等2001和加权平均Hsu等2011模型以及高斯Chen模型。等2008和Helmholtz密度模型。然后使用拉格朗日罚分或松弛将这些函数组合为单个目标函数。由于这些模型的较高复杂性因此有必要采取分层的方法放置簇而不是单个节点这会降低布局质量。过去十年见证了现代分析技术的兴起包括更高级的二次方法Kim等20102012bKimMarkov2012Brenner等2008Lin等2013最近基于静电的方法如ePlaceLu等人2015和RePlAceCheng等人2019。ePlaceLu等人2015将网表布局建模为静电系统提出了密度损失的新公式其中网表的每个节点宏或标准单元类似于带正电的粒子其面积对应于它的电费。在这种情况下节点之间相互排斥的力与它们的电荷面积成正比密度函数和梯度对应于系统的势能。已经提出了这种基于静电的方法的变体以解决标准单元布局Lu等2015和混合尺寸布局Lu等2015Lu等2016的问题。RePlAceCheng等人2019是一种最新的混合尺寸布局技术通过引入局部密度函数进一步优化ePlace的密度函数该函数为每个个体量身定制惩罚因子虚拟箱的大小。第5节将最新的RePlAce算法的性能与我们的方法进行了比较。最近的工作Huang et al.2019建议训练模型以预测给定宏布局的违反设计规则检查Design Rule Check的次数。DRC是确保所放置和路由的网表符合流片输出要求的规则。为了生成具有更少DRC的宏布局Huang等人2019使用此训练模型的预测作为模拟退火中的评估函数。尽管这项工作代表了一个有趣的方向但它报告的网表结果不超过6个宏远远少于任何现代模块而且该方法在布局和路线步骤中未进行任何优化。优化后的布局和布线可能会发生巨大变化并且实际DRC也将发生相应变化从而使模型预测无效。另外尽管遵守DRC标准是必要条件但是宏布局的主要目的是针对线长时序例如最坏的负松弛WNS和总的负松弛TNS功率和面积进行优化。而此工作甚至都没有考虑这些指标。为了解决这个经典问题我们提出了一种新的方法类别基于端到端学习的方法。这种方法与解析求解器尤其是非线性求解器最密切相关因为所有这些方法都通过梯度更新来优化目标函数。但是我们的方法与以往的方法不同之处在于它可以从过去的经验中学习以在新芯片上生成更高质量的布局。与现有的从零开始优化每个新芯片的布局的方法不同我们的工作利用从布局先前芯片获得的知识来随着时间的推移变得更好。此外我们的方法能够直接优化目标指标例如线长密度和拥塞而不必像其他方法一样定义那些函数的凸近似值(convex approximations)Cheng等2019; Lu等。2015。我们的公式不仅使新的成本函数易于获得变得容易而且还使我们能够根据给定芯片块的需求例如时序关键或功率受限的需要来权衡它们的相对重要性。域适应Domain adaptation是培训策略的问题该策略可以横跨多种经验学习并迁移所获得的知识从而在新的未见实例上表现更好。在芯片布局的情况下域适应包括在一组芯片网表中训练策略并将该策略应用于新的未见的网表。最近用于组合优化的域适应已成为一种趋势Zhou等2019; Paliwal等2019; Addanki等2019。尽管先前工作的重点是使用从优化问题的先前示例中学到的领域知识来加快对新问题的策略培训但我们提出了一种方法该方法首次使得利用过去的经验来生成更高质量的结果成为可能。与从零训练策略相比我们新颖的域适应不仅可以产生更好的结果而且还可以将训练时间减少8倍。三、方法1.问题陈述在本项目中我们针对芯片布局优化问题目标是将网表的节点描述芯片的图形映射到芯片画布有界的2D空间上从而获得最终优化的功耗性能和 面积PPA。在本节中我们概述如何将问题表述为强化学习RL问题然后详细描述奖励函数动作和状态表达策略架构以及策略更新.2.我们的方法概述我们采用深度强化学习方法来解决布局问题其中一个RL代理策略网络顺序放置宏一旦放置了所有宏就使用力导向方法来生成标准单元的粗略放置如图1所示。RL问题可以表述为马尔可夫决策过程MDP包括四个关键要素:状态世界上可能的状态集例如在我们的情况下是网表在芯片画布上的每个可能的部分布局。动作代理可以采取的一组动作例如给定要放置的当前宏可用的动作是离散画布空间网格单元中所有位置的集合 可以放置宏而不会违反对密度或阻塞的任何严格限制。状态转换给定一个状态和一个动作这是下一个状态的概率分布。奖励在某种状态下采取行动的奖励。例如在我们的案例中除最后一个动作奖励为代理线长和拥塞的负加权总和之外所有其他动作的奖励均为0具体取决于第3.3节中所述的密度约束在我们的设置中在初始状态下我们有一个空的芯片画布和一个未布局的网表。最终状态ST对应于完全放置的网表。在每一步中放置一个宏。因此T等于网表中宏的总数。在每个时间步骤t代理开始处于状态st采取行动at到达新状态sti并从环境中获得奖励rt0表示tT和t的负代理费用tT。我们将st定义为表示时间t处状态的特征的串联包括网表的图形嵌入包括放置和未放置的节点要放置的当前宏的节点嵌入关于网表的元数据部分 4以及表示将当前节点放置到网格的每个单元上的可行性的掩码。动作空间是第t个宏的所有有效位置这是下文中描述的密度掩码的函数。在处执行的操作是RL策略网络选择的第t个宏的单元格位置。sti是下一个状态它包括包含有关新放置的宏的信息的更新表示更新的密度掩码以及要放置的下一个节点的嵌入。在我们的公式中除了最终的rT以外每个时间步长rt均为0这是文中所述的近似导线长度和拥塞的加权总和。通过重复的情节状态动作和奖励的顺序策略网络将学习采取可最大化累积奖励的动作。给定每个位置的累积奖励我们使用近端策略优化PPOSchulman et al。2017更新政策网络的参数。在本节中我们定义奖励r状态s操作a参数化为0的策略网络架构 πθa|s最后定义用于训练这些参数的优化方法.3.奖励我们在这项工作中的目标是在限制路由拥塞和密度的前提下最大程度地减少功耗性能和面积。我们真正的回报是商业EDA工具的输出包括线长布线拥塞密度功率时序和面积。但是强化学习策略需要100,000个样本才能有效学习因此至关重要的是要快速评估奖励功能理想情况下可以在几毫秒内运行。为了更有效这些近似的奖励功能还必须与真实奖励正相关。因此成本的一个组成部分就是线长因为它不仅评估更便宜而且与功率和性能时序相关。我们分别针对线长和拥塞定义了近似成本函数。为了将多个目标组合为一个奖励函数我们采用代理线长和拥塞的加权总和其中权重可用于探索两个指标之间的权衡。尽管我们将拥塞视为软约束即较低的拥塞改善了奖励功能但我们将密度视为硬约束掩盖了密度超过目标密度的动作网格单元以将节点放置到其上如本节中进一步所述。为了使每次迭代的运行时间保持较小我们对奖励函数的计算应用了几种近似方法我们使用hMETISKarypisKumar1998一种基于标准化最小切割目标的分割技术将数百万个标准细胞分组为几千个簇。放置所有宏后我们将使用力控制方法放置标准单元簇。这样做使我们能够实现近似但快速的标准单元布局从而促进策略网络优化。我们将网格离散化为数千个网格单元然后将宏和标准单元簇的中心放到网格单元的中心。在计算线长时我们做一个简化的假设即所有离开标准单元簇的线都起源于簇的中心。为了计算路由选择的拥塞成本我们仅考虑最拥挤的前10网格单元的平均拥塞。1线长根据文献Shahookar和Mazumder1991我们采用半周线长HPWL这是最常用的线长近似值。HPWL定义为网表中所有节点的边界框的半周长。下式显示了给定网边i的HPWL这里的xb和yb表示网络i端点的x和y坐标。然后通过取所有半周边界框的归一化总和来计算总HPWL成本如方程式2所示。随着节点数量的增加Nnetust是网络的数量.直观上给定布局的HPWL大约是其Steiner树的长度GilbertPollak1968这是路由成本的下限.线长还具有与其他重要指标例如功率和时序关联的优势。尽管我们没有直接针对这些其他指标进行优化但我们在功耗和时序方面均保持了高性能如表2所示。2网格行和列的选择给定芯片画布的尺寸有很多选择可以将2D画布离散化为网格单元。该决定影响优化的难度和最终布局的质量。我们将最大行数和列数限制为128。我们将选择最佳行数和列数视为一个装箱问题并根据它们所浪费的空间量对行列的不同组合进行排序。在第5节中描述的实验中我们平均使用30行和列.3宏顺序的选择为了选择宏的放置顺序我们按大小降序对宏进行排序并使用拓扑排序打破平局。通过首先放置较大的宏我们减少了以后的宏没有可行放置的可能性。拓扑排序可以帮助策略网络学习将连接的节点放置在彼此附近。另一种可能的方法是学习共同优化宏的顺序及其放置从而选择放置哪个节点来放置活动空间的下一部分。但是这种扩大的行动空间将极大地增加问题的复杂性并且我们发现这种启发式方法在实践中有效.4标准单元布局为了放置标准单元簇我们使用与经典的力导向方法相似的方法ShahookarMazumder1991。我们将网表表示为一个弹簧系统该弹簧根据权重x距离公式对每个节点施加力从而使紧密连接的节点彼此吸引。我们还引入了重叠节点之间的排斥力以降低布局密度。施加所有力之后我们沿力矢量的方向移动节点。为了减少振荡我们为每次移动设置了最大距离.5路由拥塞我们还根据惯例采用了基于驱动程序位置和网络负载的简单确定性路由来计算代理拥塞Kim等2012a。路由网络为其通过的每个网格单元占用一定数量的可用路由资源由底层的半导体制造技术确定。我们分别跟踪每个网格单元中的垂直和水平分配。为了平滑拥塞估计我们在垂直和水平方向上都运行5x1卷积滤波器。路由完所有网络后我们取最高10的拥塞值的平均值从MAPLE中的ABA10度量中汲取灵感Kim等人2012a。公式4中的拥塞成本是此过程计算出的最高10的平均拥塞.6密度我们将密度视为严格的约束条件不允许策略网络将宏放置在会导致密度超过目标最大密度或导致不可行的宏重叠的位置。这种方法有两个好处减少了策略网络生成的无效放置的数量减少了优化问题的搜索空间使其在计算上更易于处理.可行的标准单元簇放置应满足以下条件每个网格单元中放置的物品的密度不应超过给定的目标密度阈值最大密度。在我们的实验中我们将该阈值设置为0.6。为了满足此约束在每个RL步骤中我们将计算当前密度掩码即一个表示网格单元的m×n二进制矩阵我们可以在该网格单元上放置当前节点的中心而不会违反密度阈值标准。在从策略网络输出中选择动作之前我们首先获取掩码与策略网络输出的点积然后在可行位置上取argmax。这种方法可防止策略网络生成具有重叠宏或密集标准单元格区域的布局.我们还可以通过将受阻区域的密度功能设置为1来启用可感知阻塞的位置例如时钟带.7后处理为了准备用于商业EDA工具评估的布局我们执行一个贪心合法化步骤以便在遵守最小间距限制的同时将宏捕捉到最近的合法位置。然后我们修复宏布局并使用EDA工具放置标准单元并评估布局.4.动作表达为了优化策略我们将画布转换为m x n的网格。因此对于任何给定状态动作空间或策略网络的输出是当前宏在m x n网格上的布局概率分布。动作是该概率分布的argmax.5.状态表达我们的状态包含有关网表图邻接矩阵其节点特征宽度高度类型等边缘特征连接数要放置的当前节点宏以及网络元数据的信息。网表和底层技术例如路由分配线路总数宏和标准单元簇等。在下一节中我们讨论如何处理这些功能以有效学习的芯片布局问题.四、域迁移从经验中学习更好的芯片布局我们的目标是开发RL代理这些代理在通过获得更多芯片布局经验可以产生更高质量的结果。我们可以将布局目标函数正式定义如下:在此JθG是成本函数。代理由θ参数化。大小为K的网表图的数据集由G表示数据集中的每个单独的网表都写为g。Rpg是从应用于网络列表g的策略网络得出的布局p的情节奖励。方程式4显示了我们用于策略网络优化的奖励它是受密度约束的电线长度和拥塞的负加权平均。在我们的实验中将拥塞权重设置为0.01将最大密度阈值设置为0.6。1.用有监督的方法来实现迁移学习我们提出了一种新颖的神经体系结构使我们能够训练用于芯片布局的域自适应策略。训练这样的策略网络是一项具有挑战性的任务因为包含所有可能芯片的所有可能布局的状态空间是巨大的。此外不同的网表和网格大小可以具有非常不同的属性包括不同数量的节点宏大小图形拓扑以及画布宽度和高度。为了应对这一挑战我们首先专注于学习状态空间的丰富表示形式。我们的直觉是能够在芯片之间传输布局优化的策略网络体系结构也应该能够在推理时将与新的未见芯片相关联的状态编码为有意义的信号。因此我们提出了一种训练神经网络架构的方法该结构能够预测新网表上的奖励其最终目标是使用这种架构作为我们策略网络的编码器层。要训练这种监督模型我们需要一个大型的芯片布局及其相应奖励标签的数据集。因此我们创建了一个10,000个芯片位置的数据集其中输入是与给定位置相关的状态而标签是该位置线长和拥塞的奖励。我们通过首先选择5个不同的加速器网表然后为每个网表生成2,000个布局来构建此数据集。为了为每个网表创建不同的布局位置我们在各种拥塞权重从0到1和随机种子下训练了一个香草策略vanilla policy网络并在策略训练过程中收集了每个布局位置的快照。未经训练的策略网络以随机权重开始并且生成的位置质量较低但是随着策略网络的训练生成的位置的质量提高了这使我们能够收集具有变化质量的位置的多样化数据集.为了训练可以准确预测线长和拥塞标签并泛化到未见的数据的监督模型我们开发了一种新颖的图神经网络架构该架构嵌入了有关网表的信息。图神经网络的作用是将有关大图内节点类型和连通性的信息提炼成可用于下游任务的低维向量表示。此类下游任务的一些示例是节点分类Nazi等人2019设备放置Zhou等人2019链接预测ZhangChen2018和设计规则冲突DRC 预测Zhiyao Xie Duke Univeristy2018).我们通过串联节点特征来创建每个节点的矢量表示。节点特征包括节点类型宽度高度以及x和y坐标。我们还将节点邻接信息作为输入传递给我们的算法。然后我们重复执行以下更新1每个边缘通过将完全连接的网络应用于中间节点嵌入的聚合表示来更新其表示以及2每个节点通过获取相邻边缘嵌入的均值来更新其表示。节点和边缘更新如公式5所示。节点嵌入用1iN表示其中N是宏和标准单元簇的总数。连接节点和Vj的矢量化边缘表示为边缘e和节点v的嵌入都是随机初始化的是32维的fco是32x32fcr是65x32前馈网络并且权重为1x1对应于边缘。Nvi显示化的邻居。算法的输出是节点和边缘嵌入.我们的受监督模型包括1上述图神经网络嵌入了有关节点类型和网表邻接矩阵的信息。2嵌入元数据的完全连接的前馈网络包括有关基础半导体技术水平和垂直路由容量网边宏和标准单元簇的总数画布大小和行数的信息 和网格中的列。3一个完全连接的前馈网络预测层其输入是网表图和元数据嵌入的串联其输出是奖励预测。通过在边缘嵌入上应用化简均值函数来创建网表图嵌入。通过回归训练监督模型以最小化线长和拥塞的均方根损失的加权和拥塞。这项有监督的任务使我们能够找到必要的功能和架构以概括跨网表的奖励预测。为了将此架构整合到我们的策略网络中我们删除了预测层然后将其用作策略网络的编码器组件如图2所示。为了处理与不同的行和列选择相对应的不同网格大小我们将网格大小设置为128x128并对小于128行和列的网格大小遮盖未使用的L形部分。为了在推理时布局一个新的测试网表我们加载了策略网络的预先训练的权重并将其应用于新的网表。我们将没有经过微调的经过预先训练的策略网络生成的布局位置称为零击布局。这样的布局可以在不到一秒钟的时间内生成因为它只需要预先训练的策略网络的单个推理步骤即可。我们可以通过优化策略网络来进一步优化布局质量。这样做使我们可以灵活地使用预先训练的权重已经学会了输入状态的丰富表达或进一步微调这些权重以针对特定芯片网表的属性进行优化。2.策略网络架构图2描绘了策略网络在方程式3中由n表示和我们为芯片布局开发的价值网络架构的概述。这些网络的输入是网表图图形邻接矩阵和节点特征要布局的当前节点的id以及网表和半导体技术的元数据。如先前所述网表图通过我们提出的图神经网络架构。该图神经网络生成1部分布局的图和2当前节点的嵌入。我们使用一个简单的前馈网络来嵌入3元数据。然后将这三个嵌入向量连接起来以形成状态嵌入该状态嵌入被传递到前馈神经网络。然后将前馈网络的输出馈送到策略网络由5个反卷积1和批标准层(Batch Normalization layers)组成以生成动作上的概率分布并传递到价值网络由前馈网络组成以进行预测输入状态的值。3.略网络更新训练参数θ在方程式3中目标是训练一个策略网络n该策略网络n在策略网络的位置分布上最大化奖励Rpg的期望值E。为了优化策略网络的参数我们使用具有限制目标的近端策略优化PPOSchulman等人2017如下所示:其中Et代表时间步长t的期望值rt是新策略和旧策略的比率At是时间步长t的估计优势.五、结果在本节中我们评估我们的方法并回答以下问题我们的方法是否支持域迁移和从经验中学习使用预先训练的政策对结果质量有何影响生成的布局的质量与最新的基线相比如何我们还将检查生成的布局的外观并提供一些有关我们的策略网络为何做出这些决策的解读.1.迁移学习结果图3将使用预训练策略生成的布局质量与通过从零训练策略网络生成的布局质量进行了比较。零击意味着我们将经过预训练的策略网络应用于新的网表而不会进行微调从而在不到一秒钟的时间内产生了布局。我们还将显示结果其中我们将根据特定设计的细节对经过预训练的策略网络进行2到12个小时的微调。从头开始训练的策略网络需要花费更长的时间才能收敛即使在24小时之后结果也要比经过精调的策略网络在12小时之后达到的结果更差这表明所学的权重和对许多不同设计的了解正在帮助我们实现在较短的时间内为新设计提供高质量的布局的目标.图4显示了针对Ariane RISC-V CPU从零开始训练与从预训练策略网络进行训练的收敛图。经过预训练的策略网络在优化过程开始时以较低的放置成本开始。此外经过预训练的策略网络可以收敛到更低的部署成本并且比从零开始训练的策略网络快30个小时以上.2.从更大的数据集中学习图3.域适应结果。对于每个块将显示零击结果以及训练2和6个小时后的微调结果。我们还包括从头开始训练的策略的结果。从表中可以看出预先训练的策略网络始终优于从零开始训练的策略网络这表明从离线训练数据中学习的有效性。随着我们在更多芯片上进行训练我们能够加快训练过程并更快地产生更高质量的结果。图4左显示了更大的培训对绩效的影响。训练数据集是从内部图4.从零开始训练策略网络与微调针对一个Ariane 块的预训练策略网络的收敛图.训练数据由各种模块组成包括内存子系统计算单元和控制逻辑。当我们将训练集从2个块增加到5个块最后增加到20个块时策略网络会在零击(zero-shot)和经过微调相同小时数的情况下生成更好的布局。图5右显示了在对策略网络进行预培训时测试数据的布局成本。我们可以看到对于较小的训练数据集策略网络会快速过度拟合训练数据而测试数据的性能会下降而对于最大的数据集策略网络可能会花费较长的时间而预先训练的策略网络会花费较长的时间这个更大的数据集会在测试数据上产生更好的结果。该图表明当我们将策略网络暴露于更多种类的不同区块时虽然策略网络可能需要更长的时间进行预训练但策略网络变得不太容易过度拟合并且对新的未见的块更容易找到优化的布局.3.可视化解读图6显示了Ariane RISC-V CPU的布局结果。左侧显示了零击策略网络的展示位置右侧显示了经过微调的策略网络的布局。零击布局是推理时在未见的芯片上生成的。零击策略网络将标准单元放在由宏包围的画布中心这已经非常接近最佳安排。在微调之后宏的布局变得更规则并且中心的标准单元区域变得不太拥挤.图7显示了可视化的布局左侧是手动布局的结果右侧是我们方法的结果。白色区域显示宏位置绿色区域显示标准单元格位置。我们的方法在标准单元周围创建了圆环形状的宏布局从而减少了总线长。图5.我们在三个不同的训练数据集上对策略网络进行了预训练小数据集是中等数据集的一个子集而中等数据集是大数据集的一个子集。然后我们在相同的测试块上微调此预训练的策略网络并报告不同训练持续时间的成本如图左侧所示。随着数据集大小的增加生成的布局的质量和在测试块上收敛的时间都将提高。右图显示了在每个数据集上训练的策略的评估曲线右图中的每个点显示了由训练中的策略生成的布局的成本图6.布局的可视化。左侧显示了经过预训练的策略的零击位置右侧显示了经过微调的策略的布局。零击策略放置是在推理时在未见的芯片上生成的。经过预先训练的策略网络无微调将标准单元放在由宏包围的画布中心 这已经非常接近最佳安排并且符合物理设计专家的直觉。4.与基线方法的比较在本节中我们将我们的方法与3种基线方法进行比较模拟退火RePl Ace和人类正常基线。对于我们的方法我们在最大的数据集20个TPU块上使用了预训练的策略然后在由块1到5表示的5个目标看不见的块上对其进行了微调。我们的数据集包括各种块包括内存子系统 计算单元和控制逻辑。由于机密性我们无法透露这些块的详细信息但是要给出规模的概念每个块最多包含数百个宏和数百万个标准单元.与模拟退火的比较模拟退火SA是一种功能强大但速度缓慢的优化方法。但是像RL一样模拟退火能够优化任意不可微的成本函数。为了显示RL的相对样本效率我们进行了实验其中我们将其替换为基于模拟退火的优化器。在这些实验中我们使用与以前相同的输入和成本函数但是在每个情节中模拟的退火优化器都会放置所有宏然后执行FD步骤放置标准单元簇。根据SA更新规则使用指数衰减退火进度表接受每个宏位置Kirkpatrick等1983。SA花费18个小时才能收敛而我们的方法花费不超过6个小时。为了使比较公平我们进行了多次SA实验扫描了不同的超参数包括最低和最高温度种子和最大SA情节以便SA和RL在仿真中花费相同的CPU小时数并搜索状态相似。表1中报告了以最低成本得到的实验结果。如表中所示与我们的方法相比即使花费额外的时间SA仍难以生产出高质量的布局并且生产的布局导致偏高的14.4线长和24.1 %平均拥塞率.图7.人类专家的布局在左侧而我们的方法的结果在右侧。白色区域代表宏绿色区域代表标准单元。由于设计是专有的因此图片特意被模糊.表1.评估深度强化学习与模拟退火SA相比样品效率的实验。我们用SA替换了RL策略网络并为每个块运行了128个不同的SA实验扫描了不同的超参数包括最低和最高温度种子和最大步长。报告运行成本最低的结果。结果显示每个块的代理线长和拥塞值。请注意由于这些代理指标是相对的因此比较仅对同一块的不同布局有效.与RePlAceCheng等2019和手动基准的比较表2将我们的结果与最新方法RePlAceCheng等2019和手动基准进行了比较。手动基准由生产芯片设计团队生成并涉及布局优化的许多迭代并在数周的时间内得到了商用EDA工具的反馈指导.类似于RePlAce我们有相同的优化目标即优化芯片设计中的全局布局但是我们使用不同的目标函数。因此我们没有比较来自不同成本函数的结果而是将商业EDA工具的输出视为基本事实。为了进行这种比较我们修复了由我们的方法和RePlAce生成的宏布局并允许商用EDA工具使用该工具的默认设置来进一步优化标准单元布局。然后我们报告总线长时序最差WNS和总TNS负松弛面积和功率指标。如表2所示我们的方法在生成满足设计要求的展示位置方面胜过RePLAce。给定底层半导体技术所施加的约束如果WNS明显高于100 ps或水平或垂直则这些块的布局将无法在设计流程的后期阶段满足时序约束。拥堵超过1导致某些RePlAce布局1、2、3块无法使用。这些结果表明我们的拥塞感知方法可有效地生成符合设计标准的高质量布局.RePlAce在1至3.5小时内收敛比我们的方法快而我们的结果在3至6小时内达到。但是我们方法的一些基本优点是1我们的方法可以轻松地针对各种不可微调的成本函数进行优化而无需构建这些成本函数的封闭形式或可微分的等价形式。例如虽然很容易将线长建模为凸函数但对于布线拥塞或时序却并非如此。2我们的方法有能力随着策略暴露于更多的芯片而随着时间的流逝而改进并且3我们的方法能够遵守各种设计约束例如不同形状的阻塞。表2还显示了人类专家芯片设计人员产生的结果。我们的方法和人类专家都一致地产生可行的布局这意味着它们符合时序和拥挤设计标准。我们在WNS面积功率和线长方面也优于或匹配手动放置。此外我们的端到端基于学习的方法花费了不到6个小时而手动基准测试涉及一个缓慢的迭代优化过程需要专家在回路中进行并且可能需要花费数周的时间.表2.将我们的方法与最新技术RePlAceCheng等人2019和使用行业标准电子设计自动化EDA工具的手动专家放置位置进行比较。对于此表中的所有指标越低越好。对于违反时间限制WNS明显大于100 ps或拥塞水平或垂直拥塞大于1的布局我们将其指标显示为灰色以表明这些布局不可行。5.讨论进一步优化我们的方法的机会还存在许多进一步改善我们方法质量的机会。例如可以进一步优化标准单元划分行和列的选择以及选择放置宏的顺序的过程。另外我们还将受益于标准单元布局的更优化方法。当前由于其运行时间快我们使用力导向方法布局标准单元。但是我们认为用于Re-PlAceCheng等人2019和DREAMPlaceLin等人2019的标准单元布局的更先进技术可以产生更多准确的标准单元布局用以指导策略网络培训。这很有用因为如果策略网络在其宏布局如何影响标准单元格布局和最终指标方面具有更清晰的信号它可以学习做出更优化的宏布局决策.对更广泛类别问题的影响这项工作只是域适应优化策略的一个示例可以扩展到芯片设计过程的其他阶段例如架构和逻辑设计综合以及设计验证 目的是训练ML模型使其在遇到更多问题实例时得到改善。基于学习的方法还可以促进在构成芯片设计过程的一系列任务中进一步进行设计空间探索和协同优化.六、结论在本项目中我们针对芯片布局的复杂而有影响的问题 我们提出了一种基于RL的方法该方法支持迁移学习。这意味着RL代理会在大量芯片网表上获得更多经验从而在芯片布局方面变得更快更好。我们证明了我们的方法优于最新的基准并且可以产生媲美或优于使用现代现代加速器的人类专家产生的布局。我们的方法是端到端的并会在6小时内生成芯片布局而最强的基线需要人工干预并且需要花费数周的时间.鸣谢此项目是Google Research与Google芯片实施和基础架构CI2团队之间的合作。我们要感谢Cliff YoungEd ChiChip StratakosSudip RoyAmir YazdanbakhshNathan Myung-Chul KimSachin AgarwalBin LiMartin AbadiAmir SalekSamy Bengio和David Patterson的帮助和支持。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/919790.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Keil uVision5 设置 hex 输出路径,不放Objects目录下

前言全局说明最近从 keil 2 换到 keil5, 新建项目后编译输出的 .hex 文件被放到 Objects目录下,找着不方便。一、说明 1.1 环境: Windows 7 旗舰版二、修改路径 2.1 打开项目设置选项 从工具栏打开或 从菜单里打开2.…

深入解析:【Linux】进程概念(六):进程地址空间深度解析:虚拟地址与内存管理的奥秘

深入解析:【Linux】进程概念(六):进程地址空间深度解析:虚拟地址与内存管理的奥秘pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; f…

深入解析:Metal - 5.深入剖析 3D 变换

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

垃圾收集器G1ZGC详解

垃圾收集器G1&ZGC详解 一、G1 收集器(-XX:+UseG1GC) G1(Garbage-First)是面向多处理器、大内存的服务器级收集器,核心目标是可预测的 GC 停顿时间与高吞吐量平衡。1. 核心特性Region 划分:将 Java 堆划分为最…

菠菜网站怎么做外贸网站该怎么做

控制actor在level中沿着一个spline path运动。 由finterp to 函数的输出数值来控制每一帧actor运动的距离。 从开始位置到spline path的终点的时间,是1/interp speed。假如我们控制actor从开头到终点运动的总时间是1秒,那么 interp speed就传入0.5&#…

Godot Outline

Godot OutlineGodot 4.5 这几天更新了,补全了模板缓冲, 在渲染Depth Buffer时,一般使用D32S8的类似格式。在Godot中,原本Depth Buffer就只渲染了Depth,因此S8的通道没有被使用。Stencil即特定材质可以向这个通道里…

油猴脚本(tampermonkey)离线安装文件下载,带油猴(tampermonkey)插件清单

油猴插件(Tampermonkey)是一款浏览器扩展程序(也称为“用户脚本管理器”),主要是在浏览器中安装和运行自定义脚本,用于修改或增强网页功能。目前支持Chrome、Firefox、Edge、Safari等主流浏览器,基本就是丰富浏…

树在线网页制作网站wordpress目录在哪里

一款博客网站源码 源码软件库 为大家内置了主题 清爽又强大真正的永久可用的一条源码,该版本为整合版本,内置了Joe主题,搭建后直接启用即可~ 安装环境要求: PHP 7.2 以上 MySQL, PostgreSQL, SQLite 任意一种数据库支持&#xff…

海口建网站 模板c 网站开发培训

文章目录 文章介绍下载连接安装教程 文章介绍 安装Qt5.12.2 下载连接 点击官网下载 安装包下载完毕 安装教程 点开设置,添加临时储存库,复制连接“https://download.qt.io/online/qtsdkrepository/windows_x86/root/qt/” 点击测试&#xff0…

SentinelOne与MITRE ATTCK企业版2025评估的深度解析

本文深入探讨SentinelOne对MITRE ATT&CK评估体系的立场转变,分析企业级网络安全评估标准的发展趋势,并揭示安全厂商在资源调配与产品路线图之间的战略平衡。文章聚焦于现代网络安全技术演进与实战化评估体系的内…

详细介绍:Docker的介绍

详细介绍:Docker的介绍pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &qu…

详细介绍:【汽车篇】基于深度学习的2D+3D整车漆面外观缺陷检测

详细介绍:【汽车篇】基于深度学习的2D+3D整车漆面外观缺陷检测pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Co…

深入解析:网线传输距离限制 | 理论基础 / 实际应用 | 双绞线分类与特性 / 水晶头制作

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

react useEffect Hook讲解

什么是 useEffect Hook? useEffect 是 React 中的一个 Hook,用于在函数组件中处理副作用(side effects)。副作用是指那些不在组件渲染过程中直接发生的事情,比如:发起网络请求(比如从服务器获取数据) 操作 DOM…

2025海丰杯WP

2025海丰杯WP ​#CTF#,#海丰杯#​ 签到 R1kzRE1ZWldHRTNET04zQ0dNWURHTUpXR1laVFNNWlVHTVpER01SVEdNWkdJTVpYR00zRE1OQlRHWVpHSU1aVUdNWlRHTkpXR0laR0lOUlJHWVpER05KVEdJWkdJTVpXR00yVEdOQldHSTNER01aVEdZM0RHTlpXR1Va…

备案 网站名企点网印通

1、打开终端,输入命令$sudo apt-get install stardict,开始下载安装。 2、安装完成后,打开后选择左下角取词选项,即可完成屏幕取词功能。 3、以上是实现的是在线翻译功能,要实现离线翻译,需要下载离线辞…

2025年试验机品牌权威推荐榜:聚焦 TOP5 专精特新企业,疲劳试验机,压力试验机,液压万能试验机等设备技术实力与口碑解析!

在工业制造高质量发展进程中,材料性能检测是保障产品安全与品质的关键环节,试验机作为核心检测设备,其性能稳定性、技术精准度直接影响企业生产效率与行业质量标准。当前市场上试验机品牌众多,但产品质量参差不齐,…

[2025.9.27鲜花] 私たちもう一生 分かり合えないと 分かっていたでしょう

已经在以周为单位计量我的生活了,一周过的跟以前的一天一样[2025.9.27鲜花] 私たちもう一生 分かり合えないと 分かっていたでしょう 咕了一个月的鲜花,被小登催了,所以来写了() 听了一个月的尸蜡,太耐听了 …

2025年岗亭厂家最新权威推荐榜:内蒙古门卫室岗亭,售货岗亭,值班岗亭,保安岗亭,低噪声岗亭选购指南

当前城市化进程不断提速,岗亭作为公共服务、安防管理及商业运营的关键设施,市场需求呈持续上升态势,但行业发展中的问题也逐渐凸显。据市场调研数据,超 60% 的企业用户在采购岗亭时,曾遭遇质量参差不齐、交付延迟…

万网空间上传网站吗百度关键词优化快速排名软件

今天好累&#xff0c;但收获多多&#xff0c;满足。 2012.2.23图层和蒙版层的类型&#xff1a;图层&#xff0c;智能图层【一个文档里嵌入一个文档&#xff0c;双击图层后形成一个新的文档】&#xff0c;调节层&#xff1b;背景层<-->图层&#xff1a;按ALT双击背景层--&…