论文浅尝 | PASSLEAF:基于样本池的不确定性知识图谱嵌入半监督学习框架

8eab786d0808e785a310be453a24407c.png

笔记整理:陈一林,东南大学硕士,研究方向为不确定性知识图谱规则与推理。

论文引用:Citation: Chen, Z.M., Yeh, M.Y. and Kuo, T.W., 2021, May. PASSLEAF: A Pool-bAsed Semi-Supervised LEArning Framework for Uncertain Knowledge Graph Embedding. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 35, No. 5, pp. 4019-4026).

动机

不确定性知识图谱(uncertain knowledge graph, UKG)含有知识的置信度信息,然而现有的大部分知识图谱嵌入(embedding)方式都忽视了这种置信度信息。UKGE是第一个针对UKG设计的嵌入方法,它的主要思想是将三元组的得分映射为置信度,并将其与真实置信度比较作损失。但是UKGE遵循封闭世界假设,将未出现的三元组均视为负样本;基于DisMult的嵌入方式,让其无法扩展到别的嵌入方式,使用概率软逻辑来构造新的训练样本的方式需要领域知识和较大的人工成本。PASSLEAF针对UKGE存在的这些问题设计了优化方式,以改善表现。PASSLEAF由两部分组成,置信度预测模型和包含自动生成含有置信度负样本的半监督模型,其中置信度预测模型可以使用不同嵌入方式的评分函数。此外PASSLEAF还构建一个样本池来收集不同时间步习得的知识。

贡献

本文的主要贡献有:

(1)提出可以处理不同嵌入方式评分函数的置信度预测模型

(2)提出半监督学习模型,改模型可以生成含有置信度的负样本

(3)构建样本池收集不同时间步模型习得的知识

方法

总体框架如图1所示,主要由不确定性预测模型和基于池的半监督学习模型组成。不确定性预测模型使用知识嵌入的评分函数来预测三元组样本的置信度,半监督学习框架能更好地处理未出现过的三元组,而不是将其直接转换为置信度为0的负样本。样本池可以进一步提高前途学习的质量。

4f2082a496305961fc02ea4269a37d18.png

图1 总体框架图

处理评分函数时,PASSLEAF先判断评分函数是semantic-based还是translational distance based,然后分别根据公式(1)和(5)映射为新的评分函数。

()()

其中,  分别表示三元组中头实体、关系和尾实体的嵌入向量, 、 和  均为模型参数。最终,评分函数将会和MSE损失一起约束模型。具体的构建方式见论文给出的例子,这里不赘述。

半监督样本也是通过替换训练集中三元组的头实体或者尾实体来构造,但是每个半监督样本都会计算置信度分数而不是置0。半监督样本的MSE损失如下:

其中,  表示半监督样本。最终模型的损失函数如下:

样本池保留了个最新的半监督样本。对于一个训练epoch,先生成  个样本并存入样本池,然后从样本池中随机取出  个样本作为半监督样本,和其他样本共同训练模型。需要注意的是训练过程中对样本总数和半监督样本数量进行了约束,防止半监督样本导致模型不稳定,具体数量约束如下:

其中,  和  分别表示开始生成半监督样本和开始从池中取半监督样本的epoch数。  是每一步中半监督样本的最大数量。

实验

实验目的在于验证基于池的半监督训练是否比纯负采样更有效,基于池的设计是否加快了半监督的训练速度以及在UKG上不确定性知识图谱嵌入是否由于确定性知识图谱的嵌入方式。数据集基本情况如下表:

68aeeadb34b6fb5d6831f9c9cf22d809.png

表1 数据集统计

设置了两个实验任务,一个是置信度预测,给定三元组,模型对此三元组进行不确定性预测,另一个是尾实体预测,给定三元组的头实体和关系,预测尾实体,并根据置信度对候选尾实体进行排序。

实验结果如下,表2为尾实体预测结果,其中  ,  ,表3为置信度预测结果。

445f89b3208cea4c0ce7501f90e28403.png

表2 尾实体预测

b502ce434b700d471319e85f0f6596d1.png

表3 置信度预测

从实验结果来看,PASSLEAF在各项指标基本都超越了传统方法,与现有的各种知识图谱嵌入方法相比,PASSLEAF显著降低了假负样本的影响,样本池在不同数据中积累的经验是有效的,同时不确定性知识图谱嵌入方式在保留不确定性知识图谱结构方面具有良好性能。

总结

本文研究了不确定性知识图谱嵌入问题,提出PASSLEAF模型,结合不同类型的评分函数预测关系置信度分数,设计了同时使用正样本和生成负样本的半监督模型,并使用样本池作为生成样本的中继,进一步增强了半监督学习。实验结果表明,本文提出的框架在置信度评分预测和尾实体预测中都具有较高的准确率,能够学习到更好的不确定性知识图谱嵌入表示。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

30e90f49f3ece9ad182fb319c1b38ced.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477537.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

扔掉老破V100、A100,英伟达新一代计算卡H100来了

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

LeetCode 725. 分隔链表

1. 题目 给定一个头结点为 root 的链表, 编写一个函数以将链表分隔为 k 个连续的部分。 每部分的长度应该尽可能的相等: 任意两部分的长度差距不能超过 1,也就是说可能有些部分为 null。 这k个部分应该按照在链表中出现的顺序进行输出,并且排在前面的…

会议交流 | 知识工程/知识图谱教学研讨会 暨 知识工程课程群虚拟教研室第一次教学研讨会...

日程安排时 间:2022年10月11日(周二)19:40-21:00地 点:虚拟教研室(B版)/ 腾讯会议:287 808 963主持人:知识工程课程群虚拟教研室带头人 天津大学教授 王鑫教学研讨会会议议程&#x…

@FeignClient中的@RequestMapping也被SpringMVC加载的问题解决

问题描述 在之前发布的《Spring Cloud实战小贴士:Feign的继承特性(伪RPC模式)》一文中,我们介绍了如果使用Feign的继承特性来完成服务的提供以及服务的消费,实现了类似RPC的编程模式。但是,仔细一些的读者可能已经发现一个问题&a…

GIF发明者感染新冠后去世,没有他就没有表情包

文 | 金磊 发自 凹非寺源 | 量子位GIF(图形交换格式)发明人Stephen Wilhite,被曝去世,享年74岁。▲Stephen Wilhite据The Verge表示,在经过与Wilhite的妻子Kathaleen交流之后,确认他是于上周因感染新冠病毒…

LeetCode 1073. 负二进制数相加(负数进制)

1. 题目 给出基数为 -2 的两个数 arr1 和 arr2,返回两数相加的结果。 数字以 数组形式 给出:数组由若干 0 和 1 组成,按最高有效位到最低有效位的顺序排列。例如,arr [1,1,0,1] 表示数字 (-2)3 (-2)2 (-2)0 -3。数组形式 的…

图谱实战 | 真实世界医疗知识图谱及临床事件图谱构建

转载公众号 | DataFunTalk分享嘉宾:李林峰博士 医渡云 技术创新副总裁编辑整理:田育珍 搜狗出品平台:DataFunTalk导读:今天介绍的主题是真实世界医疗知识图谱及临床事件图谱的构建。数据源主要来自于医院的EMR、HIS、LIS、RIS等系…

Spring Cloud实战小贴士:Feign的继承特性(伪RPC模式)

通过之前发布的《Spring Cloud构建微服务架构:服务消费者(Feign)》,我们已经学会如何使用Spring MVC的注解来绑定服务接口。我们几乎完全可以从服务提供方的Controller中依靠复制操作,来构建出相应的服务接口客户端&am…

这个北航妹子也太卷了...

大家好,今天介绍一位好朋友,毕业于北航的AI算法小姐姐 rumor。rumor刚毕业时从事量化工作,后来转岗到互联网做算法,斩获了众多大厂offer,下面是她跳槽时整理的算法工程师面试知识点:就拿其中的数据结构节点…

LeetCode 1138. 字母板上的路径

1. 题目 我们从一块字母板上的位置 (0, 0) 出发,该坐标对应的字符为 board[0][0]。 在本题里,字母板为board [“abcde”, “fghij”, “klmno”, “pqrst”, “uvwxy”, “z”]. 我们可以按下面的指令规则行动:如果方格存在,U…

开源开放 | 中药说明书实体识别数据集TCM-NER

OpenKG地址:http://openkg.cn/dataset/tcm-ner阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId86819开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:阿里云(陈漠沙&#x…

【公益】开放一台Eureka注册中心给各位Spring Cloud爱好者

这是一篇博客福利! 相信很多关注Spring Cloud的爱好者们,不论是读我的系列文章和书籍还是看其他朋友们写的博客佳文,都不可避免的启动多个项目来体验Spring Cloud带来的整套微服务架构方案。其中,Eureka注册中心几乎是每个试验都必…

首个视觉-语言预训练综述来了!

文 | Feilong Chen等编 | 陈萍源 | 机器之心一文了解视觉 - 语言预训练最新进展和新领域。让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标。为了让机器具有感知和思考的能力,研究人员进行了一系列相关研究,如人脸识别、阅读理解和人机对话&…

LeetCode 1233. 删除子文件夹

1. 题目 你是一位系统管理员,手里有一份文件夹列表 folder,你的任务是要删除该列表中的所有 子文件夹,并以 任意顺序 返回剩下的文件夹。 我们这样定义「子文件夹」: 如果文件夹 folder[i] 位于另一个文件夹 folder[j] 下&…

学术会议 | 欢迎注册参加第21届国际语义网大会ISWC-会议日程发布

ISWC(International Semantic Web Conference)是语义网和知识图谱领域的国际顶级学术会议,2022年10月23-27日,ISWC将通过线上的方式举办,汇聚全世界相关的科研工作者、从业者和领域专家,共同探讨、推进、塑造知识图谱与语义网技术…

Spring Cloud实战小贴士:Zuul统一异常处理(三)【Dalston版】

本篇作为《Spring Cloud微服务实战》一书关于Spring Cloud Zuul网关在Dalston版本对异常处理的补充。没有看过本书的读书也不要紧,可以先阅读我之前的两篇博文:《Spring Cloud实战小贴士:Zuul统一异常处理(一)》和《Sp…

LeetCode 1288. 删除被覆盖区间(lambda排序)

1. 题目 给你一个区间列表&#xff0c;请你删除列表中被其他区间所覆盖的区间。 只有当 c < a 且 b < d 时&#xff0c;我们才认为区间 [a,b) 被区间 [c,d) 覆盖。 在完成所有删除操作后&#xff0c;请你返回列表中剩余区间的数目。 示例&#xff1a; 输入&#xff1…

共同一作,会被认可吗?

文 | 检索宝源 | 科研大匠在我国&#xff0c;论文署名问题长期以来备受争议。尤其是共同第一作者&#xff0c;因没有统一认定标准&#xff0c;又直接影响硕博毕业、求职、考评的结果&#xff0c;而令人心神不宁。共一指的就是共同第一作者&#xff0c;也可以叫做并列第一作者&a…

Spring Cloud构建微服务架构:Hystrix监控数据聚合【Dalston版】

上一篇我们介绍了使用Hystrix Dashboard来展示Hystrix用于熔断的各项度量指标。通过Hystrix Dashboard&#xff0c;我们可以方便的查看服务实例的综合情况&#xff0c;比如&#xff1a;服务调用次数、服务调用延迟等。但是仅通过Hystrix Dashboard我们只能实现对服务当个实例的…

图谱实战 | 丁香园医疗领域图谱的构建与应用

分享嘉宾&#xff1a;付子玉 观澜网络 算法工程师编辑整理&#xff1a;孙佩霞 中国电信研究院出品平台&#xff1a;DataFunTalk导读&#xff1a;丁香园大数据组旨在为用户提供更优质的内容与服务&#xff0c;使用知识/概念图谱、预训练模型挖掘更深层次的用户意图。本文介绍了丁…