开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/k-zsl

GitHub地址:https://github.com/China-UK-ZSL/Resources_for_KZSL

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:浙江大学(耿玉霞、陈卓、陈华钧),牛津大学(陈矫彦),爱丁堡大学(Jeff Z. Pan),华为(苑宗港)


摘要

本开放资源由浙江大学知识引擎实验室以及牛津大学的陈矫彦研究员和爱丁堡大学的Jeff Z. Pan教授联合贡献。在此开放资源中,我们为零样本学习相关技术贡献了类别语义知识图谱,图谱囊括了类别的属性信息和文本信息、结构化知识信息,以及语义更丰富的逻辑约束信息等,包含了比以往工作更丰富的类别语义知识,为推动知识驱动的零样本学习研究提供数据支撑。

1. 前言:知识驱动的零样本学习

近年来,深度学习技术依托强大的计算资源、复杂的神经网络和大规模的标注数据集在视觉、语言、医学、金融等广泛的研究领域取得了显著的成就。然而,在现实应用场景中,尤其是在开放世界的背景假设下,随时会有一些新的概念/对象出现,持续地为这些新概念/对象收集样本并进行标注是极为不现实的。因此,研究人员提出了零样本学习(Zero-shot Learning, ZSL)的概念,用于处理没有标注样本的情况下概念/对象的预测问题,以解决现有的深度学习模型尤其是有监督学习模型对大量标注数据(即训练样本)的依赖。

借助一个直观的例子,我们首先对ZSL的工作原理做一个简单的介绍:某动物园内,小明在爸爸的带领下先后认识了马、老虎和熊猫三种动物,随后爸爸让小明在动物园里找一种之前从未见过的动物——斑马,并告诉了小明关于斑马的信息:“斑马的体型很像马,它身上还有像老虎一样的条纹,而且它像熊猫一样是黑色色的”。最后,小明根据爸爸的提示,在动物园里找到了斑马。

上述例子描述了一个典型的人类推理的过程——利用常识或者某个领域的专业知识(马、老虎、熊猫和斑马的描述),在脑海里推理出新对象的具体形态,从而对新对象进行辨认。ZSL所做的正是模仿人的这种推理能力,依赖对象间的语义联系,将模型在有标注样本的、训练过的对象(Seen Object,即上述例子中的马、老虎、熊猫)上学习到的特征迁移到没有标注样本、未在训练集中出现过的新对象(Unseen Object,即斑马)上,从而解决这些没有训练样本的对象的预测问题。

图1 知识驱动的零样本学习

对象间的语义联系通常依赖一些外部知识建立,如自然语言文本,这些外部知识从另一维度对象进行了描述(区别于对象的样本),且相比于标注样本更容易获取(如百科知识、在线语料)。其他的一些领域特定的语义知识如属性描述、类别层次等描述了领域内概念间的关系,为该领域的零样本预测问题提供了帮助。

2. 资源构建及概况

借助知识图谱强大的知识表示和知识融合能力,我们提出使用知识图谱建模对象间的语义联系,并将现有的语义关系补充到图谱资源中,同时引入更丰富的关系类型,旨在解决现有工作中对象关系语义不足,以及缺乏基准数据集以公平比较各类知识驱动的零样本学习方法的问题。我们为两个典型的、来自不同领域的零样本学习问题构建了资源,即零样本图像分类和零样本知识图谱补全任务,下面我们将对这两个任务资源的构建过程进行简单介绍,具体的构建细节可参见原文(https://arxiv.org/pdf/2102.07339.pdf)。

零样本图像分类任务(ZS-IMGC)资源构建过程

零样本图像分类任务(Zero-shot Image Classification, ZS-IMGC),是指分类未在训练集中出现的类别的图像。在训练集中出现过的类别定义为seen类别,而未出现的类别定义为unseen类别,我们使用知识图谱为这些类别标签构建它们之间的语义联系。资源的构建过程如下:

(1)我们首先使用WordNet中定义的类别层次关系建立KG的基本结构,其中 每个类别对应 WordNet 中的一个实体节点,由 WordNet 实体 ID 唯一标识,不同的节点之间通过subClassOf关系连接;

(2)基于此结构,我们加入类别的属性信息。属性同样也被表示为节点,并通过自定义的ID唯一标识。对于类别节点和属性节点之间关系的定义,我们通过对属性分组/分类实现,这是因为,类别的部分属性信息通常描述了对象相同方面的特征,如红色、白色、黑色等属性均描述了对象的外观颜色,对于相同类别的属性,我们为其定义对应的连接关系,如为颜色属性定义hasColor属性。此外,对于属性的归类,同时也丰富了属性间的关系;

(3)接下来,我们在图谱中加入当前实体的文本描述信息。考虑到类别间具有明显的层次关联关系,且父类别与子类别间名称较相似,如红狐、黑狐等都是狐狸类别的子类,因此,我们选择类别及属性的名称作为文本语义加入图谱,并通过label关系,与当前图谱进行关联;

(4)此外,我们从外部KG如ConceptNet中抽取与当前类别和属性相关的知识。具体地,我们利用类别和属性的文本信息以字符串匹配的方式与外部 KG中的实体进行对齐,并抽取这些实体1跳范围内的三元组加入当前图谱中。对齐后的实体通过 sameAs 关系关联。此外,为保证抽取知识的质量,ConceptNet中一些不相关的关系在抽取的过程中被过滤;

(5)除上述语义信息外,我们在图谱中也引入了类别间以及类别和属性间的逻辑互斥关系。这是因为很多类别虽然视觉上存在较大差异但存在数量不少的共享属性,如“斑马”、“老虎”都有属性“条纹”、“尾巴”和“肌肉”等。大量的共享属性,使得这些视觉差异较大的类别,很容易在特征迁移时互相影响,因此,我们在这些类别之间添加互斥关系。同时我们也类别和属性间的互斥关系,如“斑马不吃鱼”声明了“斑马”和“吃鱼”间的互斥关系。

经上述构建过程,我们为ZS-IMGC任务构建了领域特定的知识图谱语义资源,构建的片段如下图所示:

我们以ZS-IMGC任务的三个基准数据集AwA、ImNet-A和ImNet-O为例构建了该资源,资源的统计信息如下表所示。

零样本知识图谱补全任务(ZS-KGC)资源构建过程

该任务主要是为知识图谱补全过程中出现的新关系建模语义知识。不同于为ZS-IMGC构建的知识图谱资源,针对KG(即data graph)本身零样本的问题,我们利用知识图谱本体层的语义信息为知识图谱关系构建语义图谱(即schema graph)。

(1)我们首先利用RDFS中的术语定义schema graph的基本结构,不同于一般KG中关系被建模为实体间的连接边,在schema graph中,关系也可以出现在实体的位置,以此建模关系之间的关系,即元关系。具体地,我们利用rdfs:subPropertyOf定义关系间的层次关系,rdfs:domain和rdfs:range定义分别定义关系的头尾实体类型约束,以及rdfs:subClassOf 定义实体类型的层次结构,下图展示了该 schema的一个片段。

(2)随后,我们在schema graph中加入实体类型和关系的文本描述信息,引入关系的文本语义,这些文本通过rdfs:comment属性与当前图谱进行关联;

(3)除上述语义外,我们引入OWL术语描述关系间更复杂的关系,主要包括两类,一类是对关系间关系的表达,如等价关系、互逆关系、互斥关系以及组合关系,这些关系对于关系间关系的建立有重要帮助,如已知一个seen关系和一个unseen关系互为逆关系,则可以通过该seen关系的三元组直接推理预测出unseen的部分三元组。另一类是关系的属性信息,如对称&非对称、自反&非自反、函数&反函数、传递性等,这些属性可以帮助unseen关系进行更好的预测。

经上述构建过程,我们为ZS-KGC任务构建了领域特定的本体语义资源,构建的片段如下图所示:

我们以ZS-KGC任务的两个基准数据集NELL-ZS和Wikidata-ZS为例构建了该资源,资源的统计信息如下表所示。

3. 资源用途

对于构建后的资源,我们可以从以下几个方面进行利用:

(1)首先是用于提升ZSL模型性能。现有ZSL方法在训练模型时,通常利用从语义知识中学习的语义向量,如属性向量和文本词向量。相应地,在利用基于知识图谱的语义资源增强ZSL模型性能时,可借助语义嵌入的相关技术如知识图谱表示学习和本体表示学习等对图谱进行向量化的表示,得到类别/关系的语义向量,应用到ZSL模型中;

(2)该资源还可应用于为ZSL模型提供可解释性。图谱中包含的类别间的共享知识可以很好地为类别间特征的可迁移性提供佐证。相比于使用通用域知识图谱为模型提供可解释性,我们所构建的知识图谱资源更加领域适配;

(3)从资源的统计数据中,我们可以发现,我们构建的图谱资源具有样本分布不均衡、部分关系/元关系具有对称性,以及存在组合逻辑语义等特点,这些语义特征依赖现有的知识图谱表示学习及本体表示学习技术无法很好地捕获,因此,我们希望基于此开放资源,探究表达能力更强、更鲁棒的语义嵌入技术,从而在深度学习的背景;

4. 总结

在本开放资源中,我们为来自两个不同领域的零样本学习任务构建了基于知识图谱的类别语义信息,并详解介绍了该语义资源的构建过程,构建的资源整合 ZSL 现有语义信息的同时,也为 ZSL 任务带来了语义更丰富的知识。这些知识 为 ZSL 模型定义了更丰富的类别/关系描述信息,从而帮助其进行更好的特 征迁移,同时,图谱资源也为 ZSL 模型的可解释性等任务带来了更丰富的 领域知识。我们希望此开放资源,可以更好地为研究知识驱动的零样本学习技术以及表达能力更强的语义嵌入技术提供支持,探究有效的神经-符号集成(Neural-Symbolic Integration)模式,促进人工智能系统的进步。


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478107.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python 对网页文本的文本预处理

网页文本的文本预处理 import re class Tool:removeImg re.compile(<img.*?>| {7}|)removeAddr re.compile(<a.*?>|</a>)replaceLine re.compile(<tr>|<div>|</div>|</p>)replaceTD re.compile(<td>)replacePara re.…

LeetCode 1022. 从根到叶的二进制数之和(递归)

1. 题目 给出一棵二叉树&#xff0c;其上每个结点的值都是 0 或 1 。每一条从根到叶的路径都代表一个从最高有效位开始的二进制数。例如&#xff0c;如果路径为 0 -> 1 -> 1 -> 0 -> 1&#xff0c;那么它表示二进制数 01101&#xff0c;也就是 13 。 对树上的每一…

别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力!

文 | Yimin_饭煲编 | 炼丹学徒如果评选NLP圈的2020年度十大关键词&#xff0c;那么GPT-3&#xff08;Language Models are Few shot Learners) 一定榜上有名。GPT-3庞大的参数量&#xff0c;优异的性能至今仍让圈内圈外人都津津乐道&#xff0c;而OpenAI发布的OpenAI API&#…

大数据:任务调度,手把手教你

大数据&#xff1a;任务调度https://blog.csdn.net/qq_43713049/article/details/116985497 文章目录 任务调度一、任务流调度的需求二、任务流调度的工具三、Oozie的简介四、Oozie的2种使用方式五、WorkFlow 与 Fork 和 Join六、SubFlow&#xff1a;子工作流七、定时调度的实现…

人脸识别 | 你的论文离CVPR , 还有多远?

最近&#xff0c;一则人脸识别安全性问题的新闻上了热搜。&#xff08;图片来自网络&#xff09;虽然让不少人产生了“人在家中坐&#xff0c;债从天上来”的担忧&#xff0c;但也不由感叹人脸识别的发展与普及。人脸识别发展至今&#xff0c;已经在众多领域中占领重要地位。这…

LeetCode 455. 分发饼干(贪心)

1. 题目 假设你是一位很棒的家长&#xff0c;想要给你的孩子们一些小饼干。但是&#xff0c;每个孩子最多只能给一块饼干。对每个孩子 i &#xff0c;都有一个胃口值 gi &#xff0c;这是能让孩子们满足胃口的饼干的最小尺寸&#xff1b;并且每块饼干 j &#xff0c;都有一个尺…

开源开放 | 高质量体育赛事摘要数据集SGSum(CCKS2021)

OpenKG地址&#xff1a;http://openkg.cn/dataset/sgsumGitHub&#xff1a;https://github.com/krystalan/SGSum开放许可协议&#xff1a;CC BY-SA 4.0 &#xff08;署名相似共享&#xff09;贡献者&#xff1a;苏州大学&#xff08;王佳安、张汀依、瞿剑峰、李直旭&#xff09…

消息队列设计精要

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能&#xff0c;成为异步RPC的主要手段之一。 当今市面上有很多主流的消息中间件&#xff0c;如老牌的ActiveMQ、RabbitMQ&#xff0c;炙手可热的Kafka&#x…

数学教育中的AI:NeurIPS’21 Workshop 欢迎投稿!

Workshop主页&#xff1a;https://mathai4ed.github.io数学推理是一种人类独特的智慧能力&#xff0c;也是人类在对科学和知识的探寻道路上不可缺少的基石。不过&#xff0c;数学学习通常是一项极具挑战性的过程&#xff0c;因为它依赖于指导者对学习内容的设计、教学和评估。从…

python 处理 dataframe的汇总

0 处理异常 https://blog.csdn.net/m0_60862600/article/details/124913418?spm1001.2014.3001.5501 1 替换 示例 完整代码如下&#xff1a; from pandas import read_excelfiled:/student.xlsx #见第18章表18-1dfread_excel(file,sheet_name0,converters{学号:str})df[总分…

LeetCode 696. 计数二进制子串

1. 题目 给定一个字符串 s&#xff0c;计算具有相同数量0和1的非空(连续)子字符串的数量&#xff0c;并且这些子字符串中的所有0和所有1都是组合在一起的。 重复出现的子串要计算它们出现的次数。 示例 1 : 输入: "00110011" 输出: 6 解释: 有6个子串具有相同数量…

论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答

论文题目&#xff1a;Zero-shot Visual Question Answering using Knowledge Graph本文作者&#xff1a;陈卓(浙江大学)、陈矫彦(牛津大学)、耿玉霞(浙江大学)、Jeff Z. Pan(爱丁堡大学)、苑宗港(华为)、陈华钧(浙江大学)发表会议&#xff1a;ISWC 2021论文链接&#xff1a;htt…

Java 8系列之重新认识HashMap

HashMap是Java程序员使用频率最高的用于映射(键值对)处理的数据类型。随着JDK&#xff08;Java Developmet Kit&#xff09;版本的更新&#xff0c;JDK1.8对HashMap底层的实现进行了优化&#xff0c;例如引入红黑树的数据结构和扩容的优化等。本文结合JDK1.7和JDK1.8的区别&…

利用Python进行数据分析+准备工作+缺失数据+数据转换+数据规整+数据聚合与分组运算

利用Python进行数据分析&#xff1a;准备工作 利用Python进行数据分析&#xff1a;缺失数据&#xff08;基于DataFrame&#xff09; 利用Python进行数据分析&#xff1a;数据转换&#xff08;基于DataFrame&#xff09; 利用Python进行数据分析&#xff1a;数据规整&#xf…

LeetCode 1042. 不邻接植花(图的数据结构)

1. 题目 有 N 个花园&#xff0c;按从 1 到 N 标记。在每个花园中&#xff0c;你打算种下四种花之一。 paths[i] [x, y] 描述了花园 x 到花园 y 的双向路径。 另外&#xff0c;没有花园有 3 条以上的路径可以进入或者离开。 你需要为每个花园选择一种花&#xff0c;使得通…

我用Transformer修复代码bug

源&#xff1a;机器之心本地化 Bug 并修复程序是软件开发过程中的重要任务。在本篇论文中&#xff0c;来自微软 CloudAI 部门的研究者介绍了 DeepDebug&#xff0c;一种使用大型预训练模型 transformer 进行自动 debug 的方法。首先&#xff0c;研究者基于 20 万个库中的函数训…

论文浅尝 | 一种基于递归超图的知识图谱问答方法

笔记整理 | 谭亦鸣&#xff0c;东南大学博士生来源&#xff1a;EACL’21链接&#xff1a;https://www.aclweb.org/anthology/2021.eacl-main.35.pdf概述与动机本文提出了一种基于递归超图的知识图谱问答方法RecHyperNet&#xff0c;作者认为人回答问题时倾向于在推理过程中递归…

模拟登录——添加cookies,使用postmanget请求网页数据

摘要&#xff1a; 在进行爬虫时&#xff0c;除了常见的不用登录就能爬取的网站&#xff0c;还有一类需要先登录的网站。比如豆瓣、知乎&#xff0c;以及上一篇文章中的桔子网。这一类网站又可以分为&#xff1a;只需输入帐号密码、除了帐号密码还需输入或点击验证码等类型。本文…

论文浅尝 | 神经网络是如何外推的:从前馈神经网络到图神经网络

笔记整理 | 王泽元&#xff0c;浙江大学在读硕士&#xff0c;研究方向为图神经网络&#xff0c;对比学习。什么是外推&#xff1f;指从已知数据的孤点集合中构建新的数据的方法。与插值&#xff08;interpolation&#xff09;类似&#xff0c;但其所得的结果意义更小&#xff0…

恕我直言,很多调参侠搞不清数据和模型谁更重要

作者&#xff1a;Dario Radecic&#xff0c;Medium 高质量技术博主编译&#xff1a;颂贤▲图源&#xff1a;[Brandon Lopez]一般的AI课程会介绍很多如何通过参数优化来提高机器学习模型准确性的方法&#xff0c;然而这些方法通常都存在一定的局限性。这是因为我们常常忽视了现代…