笔记整理 | 孙悦,天津大学
1. 介绍:
知识图的链接预测是预测实体之间缺失关系的任务。先前有关链接预测的工作集中在浅,快速的模型上,这些模型可以缩放到大型知识图例如基于基于平移变换的 TransE 系列。但是,这些模型比深层次的多层模型学习的表达功能要少,这可能会限制性能。本文中提出了一种多层卷积网络模型ConvE(用于链路预测)。该模型在建模具有高度关联性的节点时非常有效,而高度关联的复杂知识图(例如Freebase和YAGO3)非常常见。
2.背景:
知识图谱中的链接预测模型通常由简单的操作组成,例如内积和嵌入空间上的矩阵乘法,并使用数量有限的参数,其特征在于嵌入参数之间的三向交互,每个参数产生一个特征。使用这种简单,快速,浅层的模型可以使人们按比例缩放到较大的知识图,而代价是学习较少的表达特征导致最终连接预测的效果堪忧。
增加浅层模型中特征的数量(从而提高其表达能力)的唯一方法是增加嵌入大小。但是,这样做导致无法缩放到较大的知识图,因为嵌入参数的总数与图中实体和关系的数量成比例。解决浅层架构的缩放问题以及完全连接的深层架构的过拟合问题的一种方法是使用参数有效的快速运算符,该运算符可以组成深层网络。基于此作者想到了卷积操作
通常在计算机视觉中使用的卷积运算符具有这些特性:由于高度优化的GPU实现,它具有高效的参数和快速的计算能力。此外,由于其无处不在的使用,在训练多层卷积网络时已经建立了鲁棒的方法来控制过度拟合。
在本文中提出了ConvE,该模型在嵌入上使用2D卷积来预测知识图中的缺失链接。ConvE 是用于链接预测的最简单的多层卷积体系结构:它由单个卷积层,嵌入尺寸的投影层和内部乘积层定义。
文章的贡献如下:本文的贡献如下:
1)引入了一个简单的,竞争性的2D卷积链接预测模型ConvE。
2)开发了一个1-N 的评分过程,将训练速度提高三倍,并将评估速度提高300倍。
3)确定本文的模型具有很高的参数效率,在参数减少8倍和17倍的情况下,在FB15k-237上比DistMult和R-GCN得分更高。
4)表明对于以indegree和PageRank衡量的日益复杂的知识图,本文的模型与浅层模型之间的性能差异与图的复杂度成比例地增加。
5)系统研究跨常用链接预测数据集报告的逆关系测试集泄漏,并在必要时引入可靠的数据集版本,以便使用简单的基于规则的模型无法解决它们。
对于给出一个三元组,再利用模型对他们的表示进行嵌入后的评分函数,本文给出了一个总结
3.Convolutional 2D Knowledge Graphs Embeddings
模型架构如下所示:
训练过程:首先,先通过预训练方法得到头节点和关系的初始表示。按照把这两个一维向量reshape成二维,再通过若干个卷机核,得到相应的feature map。将这些feature map展开成一维向量,再通过一个全连接层获得到我们最终的关于这个头节点和关系的嵌入表示。最后和所有entity表示构成的entity matrix相乘,得到对应于每一个尾节点的得分。加上一个sigmoid层即得到预测分数。scoring function为
训练过程中,使用logistic sigmoid function来计算评分,之后最小化二分类损失函数:
快速评估:与其他将实体对和关系作为三元组(s,r,o)并对其进行评分(1-1评分)不同。可以看到这个模型一次性和多个尾节点比较,可以得出多个三元组的评分(1-N得分)。因此该方法适用于大型知识图谱。
4.实验:
1)参数有效性:
2)模型表现:
3)测试集中逆关系的泄露问题:
为了系统研究此问题的严重性,本文构建了一个简单的基于规则的模型,该模型仅对逆关系建模,称之为逆模型。该模型自动从训练集中提取逆关系:给定两个关系对r1,r2∈R,我们检查(s,r1,o)是否隐含(o,r2,s),反之亦然。
在测试时,我们检查三元组是否在测试集之外具有逆匹配项:如果找到了k个匹配项,则对这些匹配项的前k个排名进行排列;如果找不到匹配项,则为测试三元组选择一个随机排名。
如上表3,4,逆模型在FB15k和WN18的许多不同指标上都达到了最新水平。但是,它未能适应YAGO3-10和FB15k-237的逆关系。但在去除了逆关系的数据集上,表现就很差了。
4)消融分析:
5)为什么在WN18RR数据集上的表现欠佳
本文提出的方法在YAGO3-10和FB15k-237等数据集上与WN18RR相比具有良好的性能。作者发现使发现WN18RR和其它数据集相比其结点入度要小很多,认为表示如此高入度的节点需要捕获所有入度边关联结点之间的差异,作者假设更深层的模型(即学习多层特征的模型(例如ConvE))比浅层模型(例如DistMult)在捕获所有这些约束方面具有优势。但是,更深的模型更难以优化,因此我们假设,对于平均关系特定度数较低的数据集(例如WN18RR和WN18),像DistMult这样的浅层模型可能足以准确表示网络的结构。具体的,用使用pagerank(原来用于度量网页的重要性,这里用来度量每个节点的重要性)。对这几个数据集分析,可以看到DistMult和ConvE之间在Hits@10方面的性能差异与平均测试集PageRank大致成比例,即平均PageRank越高与DistMult相比,测试集节点中的ConvE效果更好,反之亦然。
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 网站。