论文浅尝 | TKGR with Low-rank and Model-agnostic Representations

4f6a836c5093269eb961c642a79ea824.png

笔记整理:李行,天津大学硕士

链接:https://arxiv.org/pdf/2204.04783v1.pdf

动机

现有MKGC方法中的知识转移效率低下,因为它们分别对每个KG进行编码并通过强制对齐的实体共享相同的嵌入来转移知识。

亮点

本文的亮点主要包括:

(1)通过将实体对齐视为一种新的边缘类型并引入关系感知注意机制来控制知识传播来处理 MKGC 的知识不一致问题;

(2)提出了一种新的具有自我监督的对齐对生成机制,以缓解种子对齐的稀缺性;

(3)构建了一个新的工业级多语种电子商务知识图谱;

(4)大量实验验证了 SSAGA 在公共和工业数据集中的有效性。

概念及模型

本文为MKGC引入SS-AGA,由图2中的两个交替训练组件(a)和(b)组成:(a)一个新的对齐对生成模块,用于缓解fff21316fd0d2ef7a09a787d739d3245.png中的有限种子对齐。具体来说,本文在fuseKG中屏蔽一些种子对齐以获得8d7e76d16b01c6794b3773c7de4dacd8.png并训练生成器78545694f0f44088479b6014413c0cb3.png来恢复它们。然后,经过训练的生成器将基于学习到的实体嵌入提出新的边,这些边将作为d430fd356c4e8c08af7531ce8235134b.png并入952d0fcc0b68bc56ac02dda99070195d.png,用于MKG嵌入模型c18ee732ec83c681f0044e167969b058.png在下一次迭代中;(b)一种新的关系感知MKG嵌入模型b469024d9ee9bcff47be93537a0cb85f.png,用于解决多语言KG之间的知识不一致问题。具体来说,本文通过将对齐视为一种新的边类型,将不同的KG融合为一个整体图9d5a37323baceae7f961b201ad33e2de.png。然后7e7b5740986e6cf0830b56f83b263cb1.png使用可学习的关系感知注意力权重计算每个节点的上下文嵌入,这些权重不同于从多个对齐对接收到的影响。最后,KGC解码器5973dade30388735d8718a11f4609ce9.png计算三重分数。

2544ead9edf3d8fa1779daed31b8e0ee.png

关系感知 MKG 嵌入

为了处理知识不一致,本文首先将所有KG融合为一个整体,从而放松了实体与关系事实的对齐。然后,本文设计了一个基于注意力的关系感知GNN来学习实体的上下文化MKG嵌入,这可以区分来自具有可学习注意力权重的多个对齐源的影响。之后,本文在上下文嵌入上应用KGC解码器,以获得关系事实的三重分数。

自我监督的新对生成

在多语言KG中,只提供有限的种子对齐对来促进知识转移,因为它们的获取成本很高,甚至有时会产生噪音。为了应对这样的挑战,本文提出了一种自我监督的新对齐对生成器。在每次迭代中,生成器识别新的对齐对,这些对齐对将被馈送到GNN编码器3c85c5a60acb1d8100b2476a01f15459.png以在下一次迭代中生成上下文化实体嵌入。生成器的训练以自我监督的方式进行,其中生成器需要恢复掩蔽的对齐对。

训练

整体损失函数是KG完成损失方程和自监督对齐损失方程的组合。如下所示

cb4da23fba5ad2201438cd04f4365522.png

其中λ>0是一个正超参数,用于平衡两种损失。

理论分析

实验

数据集:

本文对两个真实世界的数据集进行实验。

(1)DBP-5L包含来自五种特定语言的KG,即英语(EN)、法语(FR)、西班牙语(ES)、日语(JA)、希腊语(EL)。

(2)E-PKG是一个新的工业多语种电子商务产品知识图谱数据集,它描述了来自电子商务平台的电话相关产品信息,涵盖六种不同的语言:英语(EN)、德语(DE)、法语(FR),日语(JA),西班牙语(ES),意大利语(IT)。

统计数据如表1所示。

e70ddd6a9e598f5a4a3c8e8dfe47777f.png

评价方案:

在测试阶段,给定每个查询5ea5236f2d137b922889e31e9178910a.png,计算由测试候选集中每个可能的尾实体eet形成的三元组的合理性分数ef63c870232ec2061f25710dc01505db.png并对它们进行排名。报告平均倒数排名(MRR)、准确度(Hits@1)和排名前10名(Hits@10)中的正确答案比例以供测试。

基线:

• 单语基线。(i)TransE将关系建模为欧几里得空间中的平移;(ii)RotatE将关系建模为复杂空间中的旋转;(iii)DisMult使用简单的双线性公式;(iv)KG-BERT基于关系和实体的文本信息,采用预先训练的语言模型来完成知识图谱。

• 多语言基线。(i)KEnS将所有KG嵌入到一个统一的空间中,并利用集成技术进行知识转移;(ii)CG-MuA是一种基于GNN的具有集体聚合的KG对齐模型。修改它的损失函数来进行MKGC。(iii)AlignKGC联合训练KGC损失与实体和关系对齐损失。

实验结果:

主要结果如表2和表3所示。首先,通过比较多语言和单语言KG模型,可以观察到多语言方法可以取得更好的性能。这表明,与独立推断每个KG相比,利用多个KG源进行KG补全背后的直觉确实是有益的。值得注意的是,多语言模型往往会为DBP-5L中的希腊语等资源较少的KG带来更大的性能提升,预计这是因为低资源KG远未完成,有效的外部知识转移可以带来潜在的好处。在多语言模型中,本文提出的方法SS-AGA在大多数情况下可以在不同的指标、语言和数据集上取得更好的性能,这验证了SS-AGA的有效性。

c575f8f1101e3fa69ec7e3fe93a78f27.png

总结

本文提出了用于多语言知识图谱补全(MKGC)的SS-AGA。它通过融合所有KG并利用GNN编码器来学习具有可学习注意力权重的实体嵌入,从而解决知识不一致问题,该权重不同于多个对齐源的影响。它具有以自我监督学习方式进行的新一代配对,以解决有限的种子对齐问题。包括一个新创建的电子商务数据集在内的两个真实世界数据集的广泛结果验证了SS-AGA的有效性。当前的方法可能无法充分利用实体和关系文本的好处。未来,可以计划研究更有效的方法将文本数据与图形数据结合起来,以获得更好的模型性能。也可以研究没有给出对齐对的MKGC,这是一个非常实用的设置,本文当前的模型无法处理。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

3e3000a45b6a525f9aa173aee8ec819d.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477434.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ICLR’22 最佳脑洞奖提名:《GPT 如何进行布朗运动?》

文 | 付瑶编 | 小轶今天给大家介绍一篇斯坦福大学的 ICLR22 论文。该文在 OpenReview 中获得了8/8/8/8的高分。在写这篇推送之前,小编身边有多位朋友都私下向我推荐过这篇文章。虽然这几位朋友所研究的任务并不相同,却都认为这篇文章“极具启发性&#x…

条件随机场(Conditional Random Field,CRF)

文章目录1. 概率无向图模型1.1 模型定义1.2 概率无向图模型的因子分解2. 条件随机场的定义与形成2.1 条件随机场的定义2.2 条件随机场的参数化形式例题2.3 条件随机场的简化形式2.4 条件随机场的矩阵形式例题3. 条件随机场的概率计算问题3.1 前向-后向算法3.2 概率计算3.3 期望…

Spring Cloud构建微服务架构(七)消息总线

先回顾一下,在之前的Spring Cloud Config的介绍中,我们还留了一个悬念:如何实现对配置信息的实时更新。虽然,我们已经能够通过/refresh接口和Git仓库的Web Hook来实现Git仓库中的内容修改触发应用程序的属性更新。但是&#xff0c…

2022中国最有钱大学排名出炉!北大只能排第三

文 | 大勇源 | 抓码计算机考研4月21日,教育部直属高校、工信部直属高校陆续在其信息公开网公布了2022年部门预算,高绩对各高校2022年预算数据进行了整理,从中可以一窥国内重点高校的经费情况。中国有各类型、各层次高校2000余所,就…

图谱实战 | 百度基于异构互联知识图谱的多模内容创作技术

分享嘉宾:卞东海 百度 高级研发工程师编辑整理:蒋郭鑫 河海大学出品平台:DataFunTalk导读:由于大数据时代的发展,知识呈指数级增长,而知识图谱技术又在近年来逐步火热,因此诞生了利用知识图谱技…

Spring Cloud构建微服务架构(四)分布式配置中心

Spring Cloud Config为服务端和客户端提供了分布式系统的外部化配置支持。配置服务器为各应用的所有环境提供了一个中心化的外部配置。它实现了对服务端和客户端对Spring Environment和PropertySource抽象的映射,所以它除了适用于Spring构建的应用程序,也…

华尔街投资人因股价暴跌起诉阿里巴巴,马云为起诉对象?

文 | 曹小灵知乎www.zhihu.com/question/530087383/answer/2458458738前几天发生了一个比较有意思的事情,直接上图:这新闻把我看乐了。这中国科技公司在美国股价下跌的原因,美国人自己不清楚么。2020年就开始闹,2021年落地的《外国…

Spring Cloud源码分析(一)Eureka

看过之前文章的朋友们,相信已经对Eureka的运行机制已经有了一定的了解。为了更深入的理解它的运作和配置,下面我们结合源码来分别看看服务端和客户端的通信行为是如何实现的。另外写这篇文章,还有一个目的,还是希望鼓励大家能够学…

手把手教你写出令人窒息的烂代码

源 | 机器之心在 GitHub 上有一个新项目,它描述了「最佳垃圾代码」的十九条关键准则。从变量命名到注释编写。这些准则将指导你写出最亮眼的烂代码。为了保持与原 GitHub 项目一致的风格,下文没有进行转换。读者们可以以相反的角度来理解所有观点&#x…

LeetCode 85. 最大矩形(DP/单调递增栈,难)

文章目录1. 题目2. 解题2.1 DP2.2 单调递增栈1. 题目 给定一个仅包含 0 和 1 的二维二进制矩阵,找出只包含 1 的最大矩形,并返回其面积。 示例: 输入: [["1","0","1","0","0"],["1",&quo…

图谱实战 | 故障知识图谱技术落地探索:装备制造故障知识图谱构建及其应用案例剖析总结...

故障知识图谱是当前面向装备制造领域的落地重要探索领域,如何通过对设备的运行状态、运行日志进行信息抽取、关系建模,建成可供分析应用的知识库,并支撑故障诊断、维修辅助等应用场景,具有重要意义。鉴于当前还未有系统性的开源相…

聊聊Spring Cloud版本的那些事儿

继续昨天说的计划,解惑一下收到比较多的问题。 有朋友问“为什么在很多文章中,大家引用的Spring版本名字都不一样呢?比如:Angel.SR6,Brixton.SR5等等,它们都有什么区别呢?”,今天我…

小样本学习只是一场学术界自嗨吗

文 | ALme知乎这两年看见很多人,包括我实习的mentor在内,都在批评few-shot learning,觉得是学术界在自high,思考良久,感觉有必要给这个领域正个名~(注意,此答案仅关注few-shot image classifica…

Spring Cloud构建微服务架构(六)高可用服务注册中心

近期因工作原因减缓了更新频率,同时为了把Spring Cloud中文社区搭建起来也费了不少时间,几乎每天都在挤牙膏般的凑时间出来做一些有意义的事。未能按原计划更新博文,在此对持续关注我博客的朋友们深表歉意。 之前在写Spring Cloud系列文章的…

技术动态 | 「可解释知识图谱推理」最新方法综述

转载公众号 | 专知近年来,以深度学习模型为基础的人工智能研究不断取得突破性进展,但其大多具有黑盒性,不 利于人类认知推理过程,导致高性能的复杂算法、模型及系统普遍缺乏决策的透明度和可解释性。在国 防、医疗、网络与信息安全…

ACL'22 | 陈丹琦提出CoFi模型剪枝,加速10倍,精度几乎无损

文 | jxyxiangyu我们都知道,为了让以深度神经网络为基础的模型更快地训练,人们提出了单机多卡、多机多卡等分布式训练的方式,那么,在模型预测推理阶段,有什么方法可以加速推理呢?遗憾的是,并行/…

LeetCode 第 19 场双周赛(231 / 1120,前20.6%)

文章目录1. 比赛结果2. 题目LeetCode 5311. 将数字变成 0 的操作次数 easyLeetCode 5312. 大小为 K 且平均值大于等于阈值的子数组数目 mediumLeetCode 5313. 时钟指针的夹角 mediumLeetCode 5314. 跳跃游戏 IV hard1. 比赛结果 做出来了1, 3, 4题,第2题结束后12分…

【Spring Cloud中文社区】正式启动

前段时间,开了个关于Spring Cloud的交流群,短短两周时间就聚集了一批爱好者与实践者,每天在交流群中大家都进行着各种不同深度的探讨,但是这些高质量的聊天记录无法被搜索引擎收纳,导致很多不错的研究内容无法分享给网…

图谱实战 | 无本体约束的开放知识图谱构建:以OpenIE为代表的开放信息抽取项目技术方案解读...

目前,本体一直是知识图谱落地过程中的容易受到抨击的点,很多非专业用户对图谱的需求,其实并不想花费大量的时间去做本体约束,而是想直接拿来就用,开箱即用,以达到搜索与分析等目的。对本体的强专业性门槛&a…

计算机视觉,凉了?

计算机视觉是人工智能的关键领域之一,是一门研究如何使机器“看”的科学。近年来,尽管计算机视觉技术在学术上取得了长足的进步,但由于缺少“现金牛”应用,经常在网络上出现“计算机视觉凉凉了”的言论。其实这种观点是非常片面的…