知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer

在这里插入图片描述
题目: Heterogeneous Graph Transformer
论文链接: https://arxiv.org/abs/2003.01332
代码链接:https://github.com/acbull/pyHGT

论文

  • 异构图研究之一: 使用元路径来建模异构结构
    heterogeneous graphs 《Mining Heterogeneous Information Networks:
    Principles and Methodologies》 2012 Morgan & Claypool Publishers.
    PathSim 《Meta path-based top-k similarity search in heterogeneous information networks.》 VLDB ’11.
    metapath2vec 《Stochastic Training of Graph Convolutional Networks with Variance Reduction. 》2018 ICML

  • 异构图研究之二: 使用GCN
    《Heterogeneous Graph Attention Network》 WWW 2019 400次引用
    《Modeling Relational Data with Graph Convolutional Networks》 1400次引用 ESWC’2018.
    《Heterogeneous Graph Neural Network》19
    《Graph Transformer Networks》19

  • 取样方法(基于GNN的)
    GraphSage [7], FastGCN [1], and LADIES [29];以及本文的HGSampling

  • 异构图的研究(节点分类、聚类、排序和表示)
    《metapath2vec:Scalable Representation Learning for Heterogeneous Networks》2017
    《Mining Heterogeneous Information Networks: Principles and Methodologies.》2012
    《Pathsim:Meta path-based top-k similarity search in heterogeneous information networks.》VLDB 11
    《Integrating meta-path selection with user-guided object clustering in heterogeneous information networks》KDD 12

想法

  • 什么是动态依赖关系?
  • ATT是指的multi-head! 同一个头节点的多个头!
  • MSG是传递消息的缩写
  • softmax是在计算multi-head的权重时候的softmax

创新

第一,我们不设置元路径; 第二,用边和点相关的参数来计算权重从而维护点和边的表示(每个关系独立的特征和共享的平衡); 第三,考虑动态特征; 第四,可以扩展到web规模;

摘要

难点
GNN对结构化数据的表示是很有效的,但是是在同构图上的
我们

  • 模型方面: 异构图上,节点和边的类型都是不一样的! 为了这种异构性建模,首先,我们设计了与节点和边类型相关的参数来描述每条边上的异质注意力,使HGT能够对不同类型的节点和边保持专门的表示。其次,考虑到动态异构图,我们在HGT中添加了相对时间编码,它能够捕获任意持续时间的动态结构依赖关系
  • 取样方式:为了处理web-scale graph,我们设计了异构mini-batch 图采样算法–HGSampling

Introduction

图1中的Open Academic Graph (OAG)[28]包含五种类型的节点:论文、作者、机构、场所(期刊、会议或预印本)和字段,以及它们之间不同类型的关系。 而且这种关系就是meta-path。

难点—详解

经典范例之一是定义和使用元路径来建模异构结构,如PathSim,metapath2vec; 范例二是GNNs的火爆,利用GNNs和异构网络进行学习。如R-GCNs、HetG、GTNs、 HAN

但是以前的网络有些存在着下面的问题:

第一,构建这种异构图中的meta-path常常需要专业领域的知识,比如上面的OAG图,如果你不是学术圈的,恐怕不知道作者、机构、paper等的关系!

第二,它们要么简单地假设不同类型的节点/边共享相同的特征和表示空间(使用相同的映射函数),要么单独对节点类型或边类型保持不同的非共享权值,使得它们不足以捕获异构图的性质;

第三,它们大多忽略了每个(异构)图的动态特征;

最后,它们的内在设计和实现使得它们无法对web规模的异构图进行建模。

我们以OAG为例,讲解一下为什么异构图难以学习。 如OAG的节点和边缘可能有不同的特征分布,比如论文是文本特征,机构是附属学者特征等。 而且OAG有时效性,比如出版物的数量会变化,而且每年的论文关注点也不同,趋势不同。 使得现有的异构gnn无法进行可伸缩处理。

我们方法—详解
上面的缺点就是我们的优点: 第一,我们不设置元路径; 第二,用边和点相关的参数来计算权重从而维护点和边的表示; 第三,考虑动态特征; 第四,可以扩展到web规模;

  1. HGT中并不是将每条边参数化,也就是向量化,而是将三元组分解成单独的个体(e、h、t),然后利用这些meta-relation来计算注意力参数化权重矩阵。 这样,不同类型的nodes和edges都保存了自己的表示空间,也能表示之间的关系。
    其次,不同类型的的nodes可以interact、pass和aggregate 信息。

    这样的好处就是HGT提取节点和边中包含了高阶信息,同时仅仅只需要一个items的one-hop edges作为输入,而不是手动设计,注意力机制会帮我们考虑哪条边重要或者不重要

  2. 为了提取图的动态特征,我们提出相对时间编码(RTE)策略来增强HGT。与将输入图分割成不同的时间戳不同,我们建议将发生在不同时间的所有边作为一个整体进行维护。任何持续长度的结构性时间依赖性,甚至是不可见的和未来的时间戳。
    通过端到端训练,RTE使HGT能够自动学习异构图的时间依赖性和演化。

  3. 为了处理web-scale graph,我们设计了HGSampling —为了mini-batch的GNN训练。 该取样方法就是构建一个不同节点类型都均衡的子图,因为现有的基于GNN的方法, GraphSage [7], FastGCN [1], and LADIES [29], 都会造成节点和边的类型高度不均衡。 同时在取样的时候,也要保持信息的不丢失。 该方法可以用在所有的GNN模型,这样就可以训练和推断任意大小的异构图。

数据集: Web-scale Open Academic Graph(这是迄今为止在异构图上进行的规模最大、跨度最长的表示学习); 还有计算机、医学学术图上都表明了HGT的有效性。
我们进一步进行了案例研究,表明该方法确实能够自动捕获隐式元路径对不同任务的重要性

2 PRELIMINARIES AND RELATED WORK

介绍heterogeneous graphs with network dynamics,并回顾图神经网络及其异构变体,同时我们也强调了HGT和异构图神经网络的不同点。

2.1 Heterogeneous Graph Mining

异构图是许多现实世界复杂系统的关系数据建模的重要抽象。正式定义为:
Definition 1.Heterogeneous Graph: 与普通的同构的多了两个函数,用来映射nodes和edges的类型。 G=(V,E,A,R)G=(\mathcal{V}, \mathcal{E}, \mathcal{A}, \mathcal{R})G=(V,E,A,R),其中前两项不用,后两项是类型集合。 映射函数是:

Meta Relation
对于边e=(s,t)e=(s,t)e=(s,t),, 它的meta relation被表示为⟨τ(s),ϕ(e),τ(t)⟩\langle\tau(s), \phi(e), \tau(t)\rangleτ(s),ϕ(e),τ(t)ϕ(e)−1\phi(e)^{-1}ϕ(e)1表明是ϕ(e)\phi(e)ϕ(e)的逆,经典的元路径范式[17-19]被定义为这种元关系的序列。

这里需要注意,为什么需要τ和ϕ\tau和\phiτϕ函数,这是不同类型的nodes之间可能有不同的relations。比如Author和Paper之间可以是第一作者也可以是第二或者是第三作者。

Dynamic Heterogeneous Graph
对真实世界(异构)图的动态特性进行建模,当node s在TTT上联系node t时,我们为一条边e=(s,t)e=(s,t)e=(s,t)分配一个时间戳TTT,如果sss第一次出现,TTT也会被分配给sss。 如果它随时间建立连接,则sss可以与多个时间戳关联。

假定边的时间戳是不变的,表示该边创建的时间。但是可以给节点分配不同的时间戳。
比如: 一篇paper在发表时,是有时间的,而是是不变的; 但是WWW会议则是由不同的时间戳的,每年都会举办。

2.2 Graph Neural Networks

现在的GNN可以将输入图结构作为计算图来进行信息的传递、聚合本地邻居信息以获得更上下文相关的表示。形式上,它有以下形式:

Definition 2.General GNN Framework:
我们假定Hl[t]H^l[t]Hl[t]是节点t再(l)(l)(l)-th GNN层的结点表示,从(l−1)(l-1)(l1)-th到(l)(l)(l)-th更新步骤如下:
在这里插入图片描述

其中N(t)N(t)N(t)表明了node ttt的sources nodes和E(s,t)E(s,t)E(s,t)表明从节点sssttt的边。
其中最重要的操作是Extract(·)和Aggregate(·),前者代表邻居信息提取器,它从上一层的源节点、目标节点分别提取信息,以及两个nodes作为查询的边eee。 Aggregate操作则是聚集了源节点的邻居信息, 同时也可以设计更复杂的池化和规范化函数。

GCN、GraphSAGE、GAT(添加了注意力机制)

2.3 Heterogeneous GNNs

原来的方法只是单独的使用node或者是edge来决定GNN的权重矩阵,然而,不同类型的节点或边缘计数可能有很大差异。对于没有足够频繁出现的关系,很难学习精确的特定关系权重。

为了解决这个问题,我们考虑参数共享以更好地泛化。对于边e=(s,t)e=(s,t)e=(s,t),, 它的meta relation被表示为⟨τ(s),ϕ(e),τ(t)⟩\langle\tau(s), \phi(e), \tau(t)\rangleτ(s),ϕ(e),τ(t),如果我们在元关系中建立相应的元素τ(s)\tau(s)τ(s), ϕ(e)\phi(e)ϕ(e), τ(t)\tau(t)τ(t), 那么大部分权重可以共享。

比如: 第一作者和第二作者的关系,他们的源节点和目标节点都是authorpaper,也就是说从一个关系学习到的关于authorpaper的知识在用到另一个关系(同一个源和目标节点)上时,会很快的适应。 我们和强大的Transformer-like注意力机制聚合,提出了Heterogeneous Graph Transformer.

我们的创新点在于:
(1)根据上面的描述,我们会根据meta-relation来分解交互和变换矩阵,使得HGT能够捕获不同关系的common和specific关系。(相同关系的nodes会共享权重)
(2)自动学习隐式元路径的重要性
(3)动态性

3 HETEROGENEOUS GRAPH TRANSFORMER

利用meta-relation来求得可以共享的参数,消息传递和传播。 同时添加了相对时间编码机制。
如果不懂自注意力的,请看这篇博客

3.1 Overall HGT Architecture

在这里插入图片描述

HGT的目标是聚合来自源节点的信息,以获得目标节点的上下文化表示

3.2 Heterogeneous Mutual Attention(通过Q·K计算attention,同时变化矩阵添加了类型!同时根据关系计算multi-head的softmax)

这里用的是Transformer的方法,不懂可以去补补, 这里计算的是一个GCN层的,所以可以把(l-1)层和接下来的第i个head也去掉,这样看起来方便一点


3.2.1 普通的GNNs

第一个步骤就是计算source s和target节点t的相互注意力,我们给出了一个简单的介绍attention-based GNNs的大概:

在这里插入图片描述
Attention: 使用target node的Qsource的K来获得注意力; Message:也就是source node s的V,存储的是原有信息; Aggregate:通过注意力权重来聚合。 当然聚合之前最好有个softmax来使得权重均衡

比如GAT就是使用了注意力机制,使用了相同的权重来计算Message,并利用简单平均值,然后对aggregate步骤进行非线性激活。

在这里插入图片描述
虽然GAT获取重要nodes的注意力值是很有效的,但是它认为s和t通过使用权重矩阵W是相同的特征分布,这是不好的。

而我们是会根据meta-relation的不同而计算node相互的attention。


3.2.2 补充:Transformer

单head:

这里需要注意的是第一步算出来的权重需要经过softmax归一化一下! α1,i\alpha_{1,i}α1,i是节点i对节点1的注意力权重。

multi-head的意思是多个特征:

上面的描述都是普通Transformer中的自注意力机制,也就是将targe t节点t映射为Query vectorsource s都映射到成Key vector,然后计算他们的dot product来作为attention!


3.2.3 我们的multi-head Transformer+GNNs

普通的Transformer和我们的设计的模型不同之处就是Transformer中对所有单词使用一组投影(也就是在计算Q、K、V时使用的W矩阵)每个元关系(也就是t、s1、s2等等和e)应该有一组(注意是一组,每个元关系是一组)不同的投影权重,而且这里的是类型权重

1. 首先将普通的权重改为类型参数权重
但是不同的投影权重也不是不好的,占有内存大,泛化能力不好! 为了达到既能保证不同关系的独特特征,又能最大化共享参数的效果,我们提出将权重矩阵参数化为源节点投影、边投影和目标节点投影(也就是前面说的一组权重),而且我们根据节点和边的类型来计算权重

2. 再次是multi-head:

具体而言我们为每个边e=(s,t)e=(s,t)e=(s,t)计算hhh-head注意力,而且是mult-head的softmax:
在这里插入图片描述

我们根据图来,解释上面的式子:

输出: attention

  1. 首先, 对于iii-th的注意力头ATT−headi(s,e,t)ATT-head^i(s, e, t)ATTheadi(s,e,t),我们使用一个线性折射KKK-Linear,这意味着每种类型的节点都有一个唯一的线性投影,以最大限度地模拟分布差异; 同样的,我们可以得到Query Vector;

  2. 其次,计算每个头的注意力(每组元关系),在Transformer中是Att-head = K· Q ,然鹅这里我们先用线性映射Q−Linearτ(t)i\mathrm {Q-Linear}_{\tau(t)}^iQLinearτ(t)i来映射目标节点ttt类型作为iii-th的Query向量, 同时使用线性映射K−Linearτ(s1)i\mathrm {K-Linear}_{\tau(s_1)}^iKLinearτ(s1)iK−Linearτ(s2)i\mathrm {K-Linear}_{\tau(s_2)}^iKLinearτ(s2)i得到尾结点的第iii-th头的Key向量。 之后使用meta-relation的权重映射Wϕe1ATTW_{\phi_{e_1}}^{ATT}Wϕe1ATT,来聚合K和Q。 也就是:
    在这里插入图片描述

    其中Wϕe1ATTW_{\phi_{e_1}}^{ATT}Wϕe1ATT可以捕获相同节点类型对的语义关系! 异构图的一个独特特征是,在一个节点类型对之间可能存在不同的边类型(关系)也就是,τ(s)和τ(t)\tau(s)和\tau(t)τ(s)τ(t),因此,与直接计算Query和Key向量之间的点积的普通Transformer不同,我们为每个边类型ϕ(e)\phi(e)ϕ(e)保留了一个不同的基于边的矩阵Wϕ(e)ATT∈Rdh×dhW_{\phi(e)}^{A T T} \in \mathbb{R}^{\frac{d}{h} \times \frac{d}{h}}Wϕ(e)ATTRhd×hd。在这样做的过程中,模型可以捕获相同节点类型对的语义关系。

    此外,由于不是所有的关系对目标节点的贡献都是相等的,我们添加了一个先验张量μ∈R∣A∣×∣R∣×∣A∣\mu \in \mathbb{R}^{|\mathcal{A}| \times|\mathcal{R}| \times|\mathcal{A}|}μRA×R×A表示每个元关系三元组的一般意义,作为注意力的自适应缩放。

  3. 最后,我们将hhh个注意头concat连接在一起,得到每个节点对的注意向量。然后,对于每个目标节点ttt,我们从它的邻居N(t)N(t)N(t)聚集所有的注意力向量,然后进行softmax,使得它满足∑∀s∈N(t)Attention HGT(s,e,t)=1h×1\sum_{\forall s \in N(t)} \text { Attention }_{H G T}(s, e, t)=\mathbf{1}_{h \times 1}sN(t) Attention HGT(s,e,t)=1h×1

3.3 Heterogeneous Message Passing(也就是V的计算,但是会考虑类型的计算,同时根据关系计算multi-head)

在这里插入图片描述

我们看图,得到看到:
输出: Message!

计算注意力之外,我们也会将信息从源节点传递到目标节点(见图2(2))。与注意过程类似,我们希望将边的元关系融入到消息传递过程中,以缓解不同类型节点和边的分布差异。对于一对节点e=(s,t)e=(s,t)e=(s,t),我们计算它的multi-head Message 通过:
在这里插入图片描述

  1. 经过矩阵! 为了得到 iii -th信息头 MSG−headi(s,e,t)MSG-head ^{i}(s, e, t)MSGheadi(s,e,t) , 我们首先映射τ(s)\tau(s)τ(s)-type的源node s为iii-th信息向量用一个线性映射M−Linearτ(s)i:Rd→RdhM-Linear _{\tau(s)}^{i}: \mathbb{R}^{d} \rightarrow \mathbb{R} \frac{d}{h}MLinearτ(s)i:RdRhd

  2. 它后面跟着一个矩阵Wϕ(e)MSG∈Rdh×dhW_{\phi(e)}^{M S G} \in \mathbb{R}^{\frac{d}{h} \times \frac{d}{h}}Wϕ(e)MSGRhd×hd来包含边的依赖。

  3. 最后一步是concat所有的hhh信息头来为每个节点对得到MessageHGT(s,e,t)Message _{H G T}(s, e, t)MessageHGT(s,e,t)

3.4 Target-Specific Aggregation

在这里插入图片描述

计算出异构 multi-head attention 和 message calculated,后,我们需要将它们从源节点聚合到目标节点(见图2(3))。同时我们可以将attention经过softmax归一化,因此,我们可以简单地使用注意向量作为权重,对来自源节点的相应消息进行平均,得到更新后的向量H~(l)[t]\tilde{H}^{(l)}[t]H~(l)[t]为:
在这里插入图片描述
它将来自不同特征分布的所有邻居(源节点)的信息聚合到目标节点ttt

最后的目标就是将目标节点t′t't的向量映射为 type-specific的分布,按节点类型索引τ(t)\tau{(t)}τ(t),为此我们应用线性投影A-Linearτ(t)_{\tau(t)}τ(t)来更新向量H~(l)[t]\tilde{H}^{(l)}[t]H~(l)[t]在残差连接后作为(看上面的图):
在这里插入图片描述

这样我们就得到了对于目标节点ttt(l−1)−th(l-1)-thl1th的HGT层的输出H(l)[t]H^{(l)}[t]H(l)[t]

这样的操作进行L次(L层),那么我们就能够得到每个节点的包含了高度上下文的H(L)H^{(L)}H(L)。可输入任意模型进行下游异构网络任务,如节点分类、链路预测等。

通过整个结构,我们高度依赖于 meta-relation-⟨τ(s),ϕ(e),τ(t)⟩\left \langle \tau( s ),\phi (e), \tau (t) \right \rangleτ(s),ϕ(e),τ(t),将权重矩阵单独参数化。 与普通的Transformer相比,这样的参数共享有利于快速的自适应和泛化。另一方面,通过使用更小的参数集,不同关系的运算符仍然可以保持其特定的特征。

3.5 Relative Temporal Encoding

我们提出了HGT结构,接下来,我们介绍了相对时间编码(RTE)技术的HGT处理图的动态。

整合时间信息的传统的方式是为每个time slot创建一个单独的图。然鹅time slots之间是有关系的。因此,建模动态图的正确方法是维护所有发生在不同时间的边,并允许具有不同时间戳的节点和边相互交互

RTE的灵感来自Transformer的位置编码方法[15,21],该方法已经成功地捕捉了长文本中单词的顺序依赖关系。

具体而言,给定一个source node s和 target node t,以及它们相应的timestamps T(s)T(s)T(s)T(t)T(t)T(t),我们表明了相对时间gap△T(t,s)=T(t)−T(s)\bigtriangleup T(t,s)=T(t)-T(s)T(t,s)=T(t)T(s)。注意训练数据集将不能弥补所有可能的时间差距,因此RET应该具有能够归纳出看不见的时间和时间间隔。因此,我们采用固定的正弦函数集作为基,具有可调谐的线性投影T-Linear∗^*为RTE:

在这里插入图片描述
最后,将相对于目标节点ttt的时间编码添加到源节点s′s's的表示中,如下所示:

在这里插入图片描述
这样,时间增广表示H^(l−1)\hat{H}^{(l-1)}H^(l1)将捕获源节点s和目标节点t的相对时间信息。RTE过程如图3所示。

在这里插入图片描述

4 WEB-SCALE HGT TRAINING

在本节中,我们提出了HGT的策略来训练Webscale具有动态信息的异构图,包括一种高效的异构迷你批图采样算法——HGSampling——和一种归纳时间戳分配方法。

4.1 HGSampling

full-batch的GNN训练需要每个层的全部节点表示,这是不适合Web-scale图。 为了解决这个问题,对于异构图直接使用它们,由于每种类型的度分布和节点总数可能发生巨大变化,容易得到关于不同节点类型的极不平衡的子图

为了解决这一问题,我们提出了一种高效的异构小批图采样算法——HGSampling,使HGT和传统gnn都能处理web规模的异构图。HGSampling能够
1)保持每种类型节点和边的数量相似
2)保持采样子图的稠密,以最小化信息损失,降低样本方差。

算法1概述了HGSampling算法。其基本思想是对每个节点类型τ\tauτ保持一个独立的节点budget B[τ]B[\tau]B[τ],并使用重要抽样策略对每个类型采样相同数量的节点以减少方差。给定已经抽样的结点ttt,我们使用算法2将其所有的直接邻居加入到相应的预算中,并在第8行中将t′t't的归一化程度加到这些邻居中,然后用这个来计算抽样概率。这种归一化相当于将每个采样节点的随机漫步概率累积到其邻域,避免了采样被高度节点主导。从直观上看,该值越大,候选节点与当前采样节点的关联程度越高,因此被采样的概率也就越大。

在这里插入图片描述

在预算更新后,我们在算法1第9行中计算抽样概率,其中我们计算每个预算中每个节点sss的累计归一化程度的平方。

如[29]所证明的,使用这样的抽样概率可以减小抽样方差。然后,在type τ\tauτ中利用计算概率采样nnn个节点,将其加入输出节点集,将其邻域更新到预算中,并在第12-15行中将其从预算中删除。对LLL times重复这样的过程,我们从初始节点得到一个具有LLL depth的抽样子图。

最后,重构采样节点之间的邻接矩阵。通过上述算法,采样后的子图每类型包含相似数量的节点(基于独立节点预算),且足够密集以减小采样方差(基于归一化程度和重要性采样),适合于在web尺度的异构图上训练gnn。

4.2 Inductive Timestamp Assignment

到目前为止,我们假设每个节点ttt都有一个时间戳T(t)T(t)T(t)。然而,在真实的异构图中,许多节点并不与固定的时间相关联。因此,我们需要给它分配不同的时间戳。我们将这些节点表示为普通节点。例如,1974年和2019年的WWW大会,这两年的WWW节点的研究课题有很大的不同。因此,我们需要决定将哪个时间戳附加到WWW节点。

在这里插入图片描述

异构图中还存在事件节点,它们具有与之关联的显式时间戳。例如,论文节点应该与其发布行为相关联,并因此附加到其发布日期。我们提出一种归纳时间戳分配算法,根据普通节点所链接的事件节点来分配时间戳。算法如算法2第6行所示。其思想是计划节点从事件节点继承时间戳。我们检查候选源节点是否为事件节点。如果是,比如在特定年份发表的一篇论文,我们保留它的时间戳以获取时间依赖性。如果不是,比如一个可以与任何时间戳关联的会议,我们归纳地将关联节点的时间戳(比如其论文发表的年份)分配给这个普通节点。通过这种方法,我们可以在子图采样过程中自适应地分配时间戳。

在这里插入图片描述

5 EVALUATION

在本节中,我们评估提出的异构图转换器在三个异构学术图数据集。我们进行了论文场预测、论文地点预测和作者消歧任务。我们还通过案例研究来演示HGT如何自动学习和提取对下游任务很重要的元路径。

5.1 Web-Scale Datasets

OAG作为实验基础。
在这里插入图片描述

5.2 Experimental Setup

测试目的:
L1: Paper-Field
L2: Paper-Field
Paper-Venue
前三个节点分类的任务就是分别预测每个paper是否属于正确的L1、L2和Paper-Venue;
为了消除歧义,我们选择使用所有同名的作者及其相关论文,任务是进行这些论文和候选作者之间的联系预测。

实验设置:
对于所有任务,我们使用2015年之前发表的论文作为训练集,2015 - 2016年发表的论文作为验证集,2016 - 2019年发表的论文作为测试集。我们选择NDCG和MRR这两个被广泛采用的排名指标作为评价指标。对所有模型进行了5次训练,并报告了测试性能的平均值和标准方差。

第一类GNNbaselines是为同构图设计的:
GCN和GAT;

第二类是几个专用的异构GNN为基线,包括:
RGCN、HetGNN、HAN

消融实验:异质性权重参数化(Heter)和相对时间编码(RTE)

我们对所有基线gnn使用第4节中提出的HGSampling算法来处理大规模的OAG图。为了避免数据泄漏,我们从子图中删除了我们打算预测的链接(例如,作为标签的Paper-Field链接)。

Input Features
我们没有假设每个节点类型属于相同的分布,所以我们可以自由地使用最合适的特征来表示每个节点类型。

对于每篇论文,我们使用预先训练的XLNet来获得标题中国的每个单词的表示,然后h用每个词的注意力加权平均它们,得到每篇论文的标题表示,每个作者最初的特征只是他/她发表的论文陈述的平均值。

对于场地、场地和研究所的节点,我们使用metapath2vec模型[3],通过反映异构网络结构来训练它们的节点嵌入。

同质GNN基线假设节点特征属于同一分布,而我们的特征提取不满足这一假设。为了进行公平的比较,我们在输入特征和所有使用的GNN之间添加了一个自适应层,该自适应层只是对不同类型的节点进行不同的线性投影这种方法可以看作是将异构数据映射到同一分布

Implementation Details
hidden dimension: 256
multi-head: 8
GNNs: 3 layers 每个网络的感受野相同
optimizer: AdamW with Cosine Annealing Learning Rate Scheduler
200 epochs,并选择最低的验证loss作为要报道的模型;
我们使用GNN文献中使用的默认参数,不调优超参数。

5.3 Experimental Results

在这里插入图片描述
HGT具有更少的参数和可比的批处理时间。这表明,通过根据异构边缘的元关系模式建模,我们能够以更少的资源消耗获得更好的泛化。

Ablation Study. HGT的核心部分是异质性权重参数化(Heter)和相对时间编码(RTE)。为了进一步分析它们的影响,我们进行了消融研究,将它们从HGT中移除

5.4 Case Study

在这里插入图片描述

为了进一步评估相对时间编码(RTE)如何帮助HGT捕捉图的动态,我们进行了一个展示会议主题演变的案例研究

我们选择100个被引用次数最高的计算机科学会议,将其划分为2000年、2010年和2020年三个不同的时间戳,并构建由它们初始化的子图。利用训练过的HGT,我们可以得到这些会议的表示,并据此计算它们之间的欧氏距离

对于每一个会议,我们挑选出最相似的5个会议(即欧几里得距离最小的会议),以显示会议的主题是如何随着时间的推移而演变的

5.5 Visualize Meta Relation Attention

在这里插入图片描述
为了说明合并后的元关系模式如何使异构消息传递过程受益,我们选择了在前两个HGT层中具有最大关注值的模式,并在图5中绘制了元关系关注层次树。例如,要计算一篇论文的表现形式,

在这里插入图片描述
是三个最重要的元关系序列,这些可以分别归为meta paths PVP、PFP和IAP。这些元路径及其重要性无需手动设计就可以从数据中自动学习。右边显示了另一个计算作者节点表示的例子。这样的可视化显示,异构图转换器能够隐式学习为特定的下游任务构建重要的元路径,而无需手动定制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476105.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1287. 有序数组中出现次数超过25%的元素

1. 题目 给你一个非递减的 有序 整数数组&#xff0c;已知这个数组中恰好有一个整数&#xff0c;它的出现次数超过数组元素总数的 25%。 请你找到并返回这个整数 示例&#xff1a; 输入&#xff1a;arr [1,2,2,6,6,6,6,7,10] 输出&#xff1a;6提示&#xff1a; 1 < arr…

你真的知道一个HTML及资源是如何load的吗(了解各个部分是何时下载和执行的)

你真的知道一个HTML及资源是如何load的吗(了解各个部分是何时下载和执行的)2009-12-03 01:09 by Tower Joo, 3741 visits, 网摘, 收藏, 编辑 你真的知道一个HTML及资源是如何load的吗(了解各个部分是何时下载和执行的) 本博客所有内容采用 Creative Commons Licenses 许可使用.…

vue开发手机页面闪烁_Vue页面加载闪烁问题的解决方法_婳祎_前端开发者

v-if 和 v-show 的区别v-if只会在满足条件时才会编译&#xff0c;而v-show不管是否满足条件始终会编译&#xff0c;v-show的显示与隐藏只是简单的切换也就是说&#xff0c;在使用v-if时&#xff0c;若值为false&#xff0c;那么页面将不会有这个使用场景一般来说&#xff0c;v-…

知识图谱论文阅读(二十一)【SIGIR2019】NGCF: Neural Graph Collaborative Filtering

题目&#xff1a;Neural Graph Collaborative Filtering 代码&#xff1a; https://github.com/xiangwang1223/neural_graph_collaborative_filtering 本文参考了博文 想法 &#xff08;1&#xff09;其实是很有缺点&#xff0c;在消息传播中&#xff0c;只是使用了邻居与目…

[推荐]VMware Workstation 6.5虚拟机(汉化补丁+注册机+原版安装文件)

VMware虚拟机6.5 新版虚拟机过了近一年的开发&#xff0c;VMware Workstation 6.5终于正式发布了。 这个增强版的Vmware Workstation 6.5不仅将3D加速带到了虚拟机平台&#xff0c;而且新增的Unity模式更是改变了虚拟机应用的模式。 VMware Workstation 6.5新特性有&#xff1a…

bootstrap获取弹框数据_Bootstrap模态弹出框的实例教程

前面的话在 Bootstrap 框架中把模态弹出框统一称为 Modal。这种弹出框效果在大多数 Web 网站的交互中都可见。比如点击一个按钮弹出一个框&#xff0c;弹出的框可能是一段文件描述&#xff0c;也可能带有按钮操作&#xff0c;也有可能弹出的是一张图片。本文将详细介绍Bootstra…

知识图谱论文阅读(二十三)【SIGIR2020】Multi-behavior Recommendation with Graph Convolutional Networks

题目&#xff1a; Multi-behavior Recommendation with Graph Convolutional Networks 论文地址&#xff1a; 论文代码&#xff1a; 想法 将相同行为的交互方式进行了聚合来计算user Embedding和item Embedding 创新 模型要做的事情就是user-item传播层学习行为影响力度&am…

LeetCode 1200. 最小绝对差

1. 题目 给你个整数数组 arr&#xff0c;其中每个元素都 不相同。 请你找到所有具有最小绝对差的元素对&#xff0c;并且按升序的顺序返回。 示例 1&#xff1a; 输入&#xff1a;arr [4,2,1,3] 输出&#xff1a;[[1,2],[2,3],[3,4]]示例 2&#xff1a; 输入&#xff1a;ar…

在mojoportal项目中发邮件使用的是dotnetopenmail

[翻译]开源发送邮件组件dotnetopenmail使用介绍 在mojoportal项目中发邮件使用的是dotnetopenmail介绍发邮件是非常简单的,不管用System.web.mail [ASP.NET 1.1]或System.Net.mail [ASP.NET 2.0],但是还是有其他第三方组件可以被使用,比如DotNetOpenMail.他可以使你用最少的代码…

怎么看表_干货 | 剪力墙、柱、板配筋率到底怎么算?

干货 | 剪力墙、柱、板配筋率到底怎么算&#xff1f;正在努力的阿源 北京峰源结构设计 剪力墙&#xff08;纯剪力墙&#xff09;1.一般部位墙厚高规7.2.1条及抗规6.4.1条&#xff0c;对于一般部位&#xff0c;一、二级不应小于160mm且不宜小于层高或无支长度的1/20&#xff0c;…

(二十四)【2021 ACL】OntoED: Low-resource Event Detection with Ontology Embedding

题目&#xff1a; OntoED: Low-resource Event Detection with Ontology Embedding 论文链接&#xff1a; https://arxiv.org/abs/2105.10922 论文代码&#xff1a;https://github.com/231sm/Reasoning_In_EE 论文 什么原型&#xff1f; Prototypical networks for few-shot …

哈尔滨理工C语言程序设计精髓_【注意啦】哈尔滨工业大学2020考研计算机专业课调整,难度提升!...

前言&#xff1a;最近各高校在密集调整计算机相关专业的专业课&#xff0c;从热门985高校、211高校到普通本科&#xff0c;许多学校的专业课都进行了调整。各高校通常会发布专业课调整通知或者直接发布2020研究生招生专业目录&#xff0c;请各位同学多多关注相关信息。哈尔滨工…

数据恢复软件(绝对真实可用)

本软件已经本人测试&#xff0c;这个数据恢复软件是我用过的感觉最好用的一个了。声明&#xff1a;我是在我电脑没有重装系统的前提下进行测试的。小小的这么一个绿色软件&#xff0c;还真的可以找回大部分删除了N久的文件。感觉很爽。现给大家展示几张我测试时的截图&#xff…

LeetCode 1221. 分割平衡字符串

1. 题目 在一个「平衡字符串」中&#xff0c;‘L’ 和 ‘R’ 字符的数量是相同的。 给出一个平衡字符串 s&#xff0c;请你将它分割成尽可能多的平衡字符串。 返回可以通过分割得到的平衡字符串的最大数量。 示例 1&#xff1a; 输入&#xff1a;s "RLRRLLRLRL"…

安装pp框架

第一步&#xff1a; 创建环境 conda create --name pp37 python3.7 第二步&#xff1a; 激活环境 conda activate pp37 第三步&#xff1a; 官方安装 conda install paddlepaddle-gpu2.1.3 cudatoolkit10.2 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/clou…

基础算法学习(二)_二叉树及应用赫夫曼编码

这次学习的重点在于二叉树的性质、链式存储结构&#xff08;也就是C语言的struct&#xff09;和赫夫曼编码&#xff0c;学习的教材是清华大学出版社出版的C语言版数据结构。 首先是二叉树&#xff1a; 二叉树&#xff08;Binary Tree&#xff09;是另一种树形结构&#xff…

LeetCode 1222. 可以攻击国王的皇后(set)

1. 题目 在一个 8x8 的棋盘上&#xff0c;放置着若干「黑皇后」和一个「白国王」。 「黑皇后」在棋盘上的位置分布用整数坐标数组 queens 表示&#xff0c;「白国王」的坐标用数组 king 表示。 「黑皇后」的行棋规定是&#xff1a;横、直、斜都可以走&#xff0c;步数不受限…

win10开始菜单添加磁贴_Windows 10开始菜单磁贴美化教程

前言我们都知道&#xff0c;Windows 10在美化上可没有下足功夫&#xff0c;尤其是开始菜单的磁贴上。几年前&#xff0c;我们还觉得这种磁贴设计在大众面前焕然一新&#xff0c;可是近几年来&#xff0c;也没见磁贴有什么起色&#xff0c;除了不能自定义背景颜色外&#xff0c;…

【Text_Classification】学习到的语法知识

1. 任务 1.1 字典中每个种类的准确率 分母&#xff1a; 首先计算每个种类的总数&#xff01; for value in label:# get(value, num)函数的作用是获取字典中value对应的键值, num0指示初始值大小。label_cout[value] label_cout.get(value, 0) 1label_acc[value] label_a…

%求余数 rand随机数

//getSeconds() 0-59number new Date().getSeconds() % 3 1; //随机数&#xff0c;从1到3//0-9之间 Math.random()*10var num1 Math.round(Math.random()*10) % 3 随机数&#xff0c;从0到2 任何数%3 得到 0 1 2 任何数%4 得到 0 1 2 3转载于:https://www.cnblogs.com/reo…