论文浅尝 - EMNLP2020 | 基于规则引导的协作 agent 知识图谱推理学习

论文笔记整理：叶橄强，浙江大学在读硕士，研究方向为知识图谱的表示学习和预训练。

来源：EMNLP 2020

现有的大多数基于行走的模型通过在提供可解释的决策的同时获得良好的性能，在知识图谱推理中显示出其优势。但在遍历过程中提供的稀疏奖赏信号往往不足以指导复杂的基于行走的强化学习模型。

另一方面使用传统的符号方法，如规则归纳法，这些方法虽然性能良好，但由于符号表示的局限性而难以推广。

本文提出了规则引导器RuleGuider，一方面利用基于符号的方法生成的高质量规则，另一方面高质量规则为基于行走的代理提供奖励监督。

RuleGuider由两个部分组成，一个是基于符号的方法，称为规则挖掘器rule miner；另一个是基于路径的方法，称为agent。规则挖掘器rule miner首先挖掘逻辑规则，agent在规则的指导下，通过奖励来学习推理路径的概率分布。

代理部分agent分为两个子代理：关系代理和实体代理，这两个代理结构相互作用生成路径。

在每个步骤中，实体代理首先从有效实体中选择一个实体，然后关系代理将基于所选实体抽样一个关系，最后他们基于最后选择实体的命中奖励和基于所选路径的预挖掘规则集的规则指导奖励。实体代理和关系代理可以参考如下模型结构图

（1）关系代理Relation Agent

对于给定的查询语句，关系代理选择一个关联到当前实体e_t−1的关系r_t，这个过程可以用公式描述为，其中r_q表示需要查询的关系，R为挖掘出来的规则集合，是之前每一步挑选出来的关系历史。

因此，关系代理既利用了预先挖掘的规则的置信度得分，也利用了嵌入向量提供的语义信息来获得命中奖励。

（2）实体代理Entity Agent

类似于关系代理，实体代理模型会基于头实体e_s生成所有候选实体的分布，这个过程可以被形式化为，其中r_q表示需要查询的关系，r_t表示从关系代理中获取当前第t步骤的关系。

（3）策略网络Policy Network

关系代理的搜索策略可以通过嵌入向量r_q和来参数化，其中后者是关系历史，通过长短期记忆神经网络LSTM来计算，其中是最后一个关系的嵌入向量，是之前的历史关系。于是可以得到关系代理输出概率分布：

其中σ是softmax运算符，W1和W2是可训练参数。因此，关系代理的历史依赖策略可以表示为。

类似地，实体的概率分布可以表示为

实体代理的历史依赖策略可以表示为

（4）训练奖励

规则引导奖励R_r：给定一个查询，关系代理会选择指向正确对象实体的路径。因此，在给定一条关系路径的情况下，我们根据其从规则挖掘器中获取的信任度给予奖励，称为规则引导奖励

命中奖励R_h：还将获得命中奖励R_h，如果预测的三元组在知识图谱中，则其值为1。

训练过程分四个阶段训练模型。

1）使用基于嵌入embedding的方法训练关系和实体嵌入向量。

2）应用规则挖掘器来检索规则及其相关的可信度分数。

3）通过冻结实体代理并请求关系代理采样路径来预训练关系代理。只使用规则挖掘器来评估路径，并根据预先挖掘的置信度计算Rr。

4）联合训练关系和实体代理来利用嵌入来计算相对湿度。

最终整合规则引导奖励R_r和命中奖励R_h 并为其加入系数为λ：，并使用强化学习算法训练两个代理的策略网络，使最终的汇报R最大化

实验

实验部分作者做了三类实验，包括三个数据集上的知识图谱链接预测，模型各个和人工评估推导的规则合理性这些实验。实验结果如下：

RuleGuider在WN18RR和NELL-995上实现了不错的效果，但在FB15k-237数据集上也效果有限。一个可能的原因是：与其他两个数据集相比，FB15k-237中的关系空间要大得多，而在大的关系路径空间中，规则相对稀疏，这使得关系代理难以选择所需的规则。

另外与基于行走路径的方法相比，基于嵌入的方法尽管相对简单但在所有数据集上都具有一贯的良好性能，很可能是因为基于嵌入向量的方法将整个图的结构信息隐式编码到嵌入空间中。

为了验证模型各个部分的有效性，文章设计了不同的RuleGuider模型变体来验证试验：Freeze模型，冻结了预训练的关系代理部分；No模型，没有预先训练部分；Single模型，没有分离agent。

Freeze模型与本文模型比较，冻结预先训练过的agent代理效果较差，表现差表明命中奖励是必要的。No模型与本文模型比较，去掉预训练表现的结果较差，说明基于行走的智能体受益于逻辑规则。Single模型与本文模型比较性能较差，说明了剪枝动作空间的有效性。

除了评估链接预测指标和模型变体外，本文还进一步分析导致正确预测实体的推理路径是否合理。文章在FB15k-237上使用均匀分布从开发集随机抽取300个三元组的评估集。，对于给定正确的三元组，三个实验者被要求选择以下哪条路径是更好的解释/分解它之间的：（1）由本文方法生成的路径；（2）由多跳方法Multihop生成的路径；（3）抽签或没有一个是合理的。对于每个三元组，以多数票作为评估结果。从表4中可以看出，与具有复杂奖赏成形的多跳算法相比，规则引导器RuleGuider具有更好的性能，推理路径对可解释性更有意义。

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。