论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答

论文题目:Zero-shot Visual Question Answering using Knowledge Graph

本文作者:陈卓(浙江大学)、陈矫彦(牛津大学)、耿玉霞(浙江大学)、Jeff Z. Pan(爱丁堡大学)、苑宗港(华为)、陈华钧(浙江大学)

发表会议:ISWC 2021

论文链接:https://arxiv.org/pdf/2107.05348.pdf

代码链接:https://github.com/China-UK-ZSL/ZS-F-VQA

欢迎转载,转载请注明出处

引言

将外部知识引入视觉问答(Visual Question Answering, VQA)已成为一个重要的实际需求。现有的许多方法采用pipeline的模式,多模块分工进行跨模态知识处理和特征学习,但这种模式下,中间件的性能瓶颈会导致不可逆转的误差传播(Error Cascading)。此外,大多数已有工作都忽略了答案偏见问题——因为长尾效应的存在,真实世界许多答案在模型训练过程中可能不曾出现过(Unseen Answer)。

在本文中,我们提出了一种适用于零样本视觉问答(ZS-VQA)的基于知识图谱的掩码机制,更好结合外部知识的同时,一定程度缓解了误差传播对于模型性能的影响。并在原有F-VQA数据集基础上,提供了基于Seen / Unseen答案类别为划分依据的零样本VQA数据集(ZS-F-VQA)。实验表明,我们的方法可以在该数据集下达到最佳性能,同时还可以显著增强端到端模型在标准F-VQA任务上的性能效果。

一、前言

我们生活在一个多模态的世界中。视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,诸多方面的信息促进着我们对于世界的认知。作为多模态领域的一个典型场景,VQA旨在结合视觉的信息来回答所提出的问题。从15年首次被提出至今,其涉及的方法从最开始的联合编码,到双线性融合,注意力机制,组合模型,场景图,再到引入外部知识,进行知识推理,以及使用图网络,多模态预训练语言模型…近年来发展迅速。18年Qi Wu等首先提出引入外部知识的KB-VQA问题(FVQA[1]),贡献领域重要数据集(每个问题的回答必须依赖图片以外知识)的同时提出了一种基于知识子图生成并构建查询语句(SPARQL)的方法来解决该问题。以其为代表的后来一系列pipeline模式模型,流程繁琐部署困难的同时还面临着误差传递的风险。传统端到端方法,尽管某种程度上避免了误差传递,但大多将VQA作为分类任务,这使得其无法对超出候选答案以外(out-of-vocabulary, OOV)的结果进行预测,也即我们提到的零样本学习(Zero-shot Learning, ZSL)。

人天生就具有强大的领域迁移能力,且这种能力往往不需要很多的样本,甚至仅需一些规则描述,根据过往的经验与知识就可以迅速适应一个新的领域,并对新概念进行认知。基于此假设,我们设计零样本下的外部知识VQA:测试集答案与训练集的答案没有重叠。即,在原有F-VQA数据集基础上,提供以Seen / Unseen答案类别为划分依据的ZS-F-VQA数据集,并提出了一种适用于零样本视觉问答(ZS-VQA)的基于知识图谱的掩码机制。区别于传统VQA基于分类器的模型设定,我们采取基于空间映射的方法,建立多个特征空间并进行知识分解,同时提出了一种灵活的可作用于任何模型的k mask设定,缓解少样本情况下对于Seen类数据的领域漂移。我们的方法提供了一种多模态数据和KG交互的新思路,实验证明在多个模型上可取得稳定的提升,更好地结合外部知识同时缓解误差传播对于模型性能的影响。

二、数据集

由于长尾效应的存在,大多VQA数据存在答案不全/不均衡的特点(e.g. person、dog 等高频答案的出现概率可能是towel、rail等低频答案的数十乃至上百倍),这导致部分概念因为出现次数少而无法被很好地学习,甚至根本就没有被学习(尽管真实场景下,其依然存在被问到的可能)。

我们考虑极端的情况——零样本。即将原始数据根据答案类型,划分为训练/测试集的两个分布。具体来说,我们首先将F-VQA数据集的训练/测试集进行融合,然后统计出现概率TOP500的答案类型(answer class),按照Seen answer和Unseen answer随机划分为250 / 250的比例。此过程重复五次得到5个不同的子集以消除随机划分带来的误差影响。ZS-F-VQA划分统计结果与F-VQA对比如下:

注意到,原始F-VQA是根据图片进行数据划分的,因此在image上的重叠(overlap)是0,而ZS-F-VQA在answer上重叠为0。

三、方法

方法包含两部分。

第一部分,我们提出三个特征空间以处理不同分布的信息:实体空间(Object Space)、语义空间(Semantic Space)、知识空间(Knowledge Space)的概念。其中:

  • 实体空间主要处理图像/文本中存在的重点实体与知识库中存在实例的对齐;

  • 语义空间关注视觉/语言的交互模态中蕴含的语义信息,其目的是让知识库中对应关系的表示在独立空间中进行特征逼近。

  • 知识空间让 (问题,图像)组成的pair与答案直接对齐,建模的是间接知识,旨在挖掘多模态融合向量中存在的(潜层)知识。

第二部分是基于知识的答案掩码。

掩码技术技术广泛应用于预训练语言模型(PLM),其在训练阶段遮掩输入的片段,以自监督的方式学习语法语义。与这种方式不同,我们在输出阶段进行答案遮掩:给定输入图像/文本信息得到融合向量后,基于第一部分独立映射的特征空间和给定的超参数Ke / Kr,根据空间距离相似度在实体/语义空间中得到关于实体/关系的映射集,结合知识库三元组信息匹配得到答案候选集。答案候选集作为掩码的依据,在知识空间搜索得到的模糊答案的基础上进行掩码处理,最后进行答案排序。

此处的掩码类型的分为两种:硬掩码(hard mask)和软掩码(soft mask),主要作用于答案的判定分数(score),区别在于遮掩分数的多少。其作用场景分别为零样本场景和普通场景。零样本背景下领域偏移问题严重,硬掩码约束某种意义上对于答案命中效果的提升远大于丢失正确答案所带来的误差。而普通场景下过高的约束则容易导致较多的信息丢失,收益小于损失。

具体实验和讨论见原文。

四、实验

标准F-VQA上的实验效果:

可以看到,取不同的超参k值,相比于其他baseline方法,最多可以取得( 6 ∼ 9% )的稳定提升。而在零样本设定中,ZS-F-VQA数据集下的实验结果如图所示:

模型所取得的提升是十分显著( 30 ∼ 40% )的。

同时,ZS-F-VQA数据下hard mask 取得最佳效果,F-VQA数据下soft mask在不同的掩码分值取值(soft mask)下取得最佳效果,证明hard mask和soft mask的设定是有必要的。

最后,我们也对模型在两个数据集上的结果进行了可解释性分析。

五、总结

现有的模型默认训练集与测试集具有独立同分布的特质,但现实往往不尽如人意,也就是说同分布的假设大概率要打破。正如三位图灵奖大佬最近发表的文章Deep Learning for AI [2]中所强调的核心概念——高层次认知。将现在已经学习的知识或技能重新组合,重构成为新的知识体系,随之也重新构建出了一个新的假想世界(如在月球上开车),这种能力是人类天生就被赋予了的,在因果论中,被称作“反事实”能力。现有的统计学习系统仅仅停留在因果关系之梯的第一层,即观察,观察特征与标签之间的关联,而无法做到更高层次的事情。

这也是我们研究的出发点:零样本领域如何合理利用已有知识?我们普遍认为见过的就是事实,而未见过的就是事实以外的错误(反事实),这显然过于绝对。零样本某种意义上,就可看成是反事实的一种特例。

在未来,这其中显然还有更多可以挖掘的可能。

欢迎大家关注我们近期的在零样本学习领域的其他工作 [3-5]!

[1] Wang, P., Wu, Q., Shen, C., et al.: FVQA: fact-based visual question answering. TPAMI (2018)

[2] https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext

[3] Geng Y, Chen J, Chen Z, et al. OntoZSL: Ontology-enhanced Zero-shot Learning. WWW 2021

[4] Chen J, Geng Y, Chen Z, et al. Knowledge-aware Zero-Shot Learning: Survey and Perspective[J]. IJCAI. 2021

[5] Geng Y, Chen J, Chen Z, et al. K-ZSL: Resources for Knowledge-driven Zero-shot Learning[J]. arXiv, 2021.


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478095.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java 8系列之重新认识HashMap

HashMap是Java程序员使用频率最高的用于映射(键值对)处理的数据类型。随着JDK(Java Developmet Kit)版本的更新,JDK1.8对HashMap底层的实现进行了优化,例如引入红黑树的数据结构和扩容的优化等。本文结合JDK1.7和JDK1.8的区别&…

利用Python进行数据分析+准备工作+缺失数据+数据转换+数据规整+数据聚合与分组运算

利用Python进行数据分析:准备工作 利用Python进行数据分析:缺失数据(基于DataFrame) 利用Python进行数据分析:数据转换(基于DataFrame) 利用Python进行数据分析:数据规整&#xf…

LeetCode 1042. 不邻接植花(图的数据结构)

1. 题目 有 N 个花园,按从 1 到 N 标记。在每个花园中,你打算种下四种花之一。 paths[i] [x, y] 描述了花园 x 到花园 y 的双向路径。 另外,没有花园有 3 条以上的路径可以进入或者离开。 你需要为每个花园选择一种花,使得通…

我用Transformer修复代码bug

源:机器之心本地化 Bug 并修复程序是软件开发过程中的重要任务。在本篇论文中,来自微软 CloudAI 部门的研究者介绍了 DeepDebug,一种使用大型预训练模型 transformer 进行自动 debug 的方法。首先,研究者基于 20 万个库中的函数训…

论文浅尝 | 一种基于递归超图的知识图谱问答方法

笔记整理 | 谭亦鸣,东南大学博士生来源:EACL’21链接:https://www.aclweb.org/anthology/2021.eacl-main.35.pdf概述与动机本文提出了一种基于递归超图的知识图谱问答方法RecHyperNet,作者认为人回答问题时倾向于在推理过程中递归…

模拟登录——添加cookies,使用postmanget请求网页数据

摘要: 在进行爬虫时,除了常见的不用登录就能爬取的网站,还有一类需要先登录的网站。比如豆瓣、知乎,以及上一篇文章中的桔子网。这一类网站又可以分为:只需输入帐号密码、除了帐号密码还需输入或点击验证码等类型。本文…

论文浅尝 | 神经网络是如何外推的:从前馈神经网络到图神经网络

笔记整理 | 王泽元,浙江大学在读硕士,研究方向为图神经网络,对比学习。什么是外推?指从已知数据的孤点集合中构建新的数据的方法。与插值(interpolation)类似,但其所得的结果意义更小&#xff0…

恕我直言,很多调参侠搞不清数据和模型谁更重要

作者:Dario Radecic,Medium 高质量技术博主编译:颂贤▲图源:[Brandon Lopez]一般的AI课程会介绍很多如何通过参数优化来提高机器学习模型准确性的方法,然而这些方法通常都存在一定的局限性。这是因为我们常常忽视了现代…

专访美团外卖曹振团:天下武功唯快不破

本文转自InfoQ中文网站,首发地址:http://www.infoq.com/cn/news/2016/06/Meituan-take-away 马云曾经说过:世界是懒人创造出来的。在“懒人”们的推动下,O2O的战火已经燃烧到了外卖行业。据报告,2015年外卖市场年交易额…

LeetCode 720. 词典中最长的单词(Trie树)

1. 题目 给出一个字符串数组words组成的一本英语词典。从中找出最长的一个单词,该单词是由words词典中其他单词逐步添加一个字母组成。若其中有多个可行的答案,则返回答案中字典序最小的单词。 若无答案,则返回空字符串。 示例 1: 输入: …

postman调的通,python调用程序却要显示登录

postman调的通,python调用程序却要显示登录 1 解决方案: 添加verify False 2 手动在网页上复制粘贴token和auth相关验证在这里插入代码片 import requests url "" requests.packages.urllib3.disable_warnings()s requests.Session()s.tr…

论文浅尝 | 通过知识到文本的转换进行知识增强的常识问答

笔记整理:陈卓,浙江大学在读博士,主要研究方向为低资源学习和知识图谱论文链接:https://www.aaai.org/AAAI21Papers/AAAI-10252.BianN.pdf发表会议:AAAI 2021动机文章提出了对于未来CQA(Commonsense QA)问题的三个见解…

聊聊机器翻译界的“灌水与反灌水之战”!

文 | Willie_桶桶编 | 智商掉了一地针对机器翻译领域如何提高和判断实验可信度,这篇ACL2021的oustanding paper迈出了关键的一步!(来读!全文在末尾)作为不停读论文和调参炼丹的科研党,也许在我们的身边总会…

LeetCode 273. 整数转换英文表示

1. 题目 将非负整数转换为其对应的英文表示。可以保证给定输入小于 231 - 1 。 示例 1: 输入: 123 输出: "One Hundred Twenty Three"示例 2: 输入: 12345 输出: "Twelve Thousand Three Hundred Forty Five"示例 3: 输入: 1234567 输出: "One Mill…

数据标注平台doccano----简介、安装、使用、踩坑记录

1.doccano的安装与初始配置 1.1 doccano的用途 document classification 文本分类sequence labeling 序列标注,用于命名实体识别sequence to sequence seq2seq,用于翻译speech to text 语音转文本标注 命名实体标注 序列标注(如机器翻译&…

月圆花美 中秋快乐!

OpenKGOpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。点击阅读原文,进入 OpenKG 网站。

大众点评支付渠道网关系统的实践之路

业务的快速增长,要求系统在快速迭代的同时,保持很好的扩展性和可用性。其中,交易系统除了满足上述要求之外,还必须保持数据的强一致性。对系统开发人员而言,这既是机遇,也是挑战。本文主要梳理大众点评支付…

拍不完的脑袋:推荐系统打压保送重排策略

文 | 水哥源 | 知乎saying1.懂模型不只是要知道模型能干什么,更要知道它不能干什么2.在从业一段时间后应该有一次“转职”,如果你相信模型无所不能,你应该走科研路线;如果你对模型不是很放心,那你应该成为一名工程师3.…

LeetCode 572. 另一个树的子树(二叉树迭代器)

1. 题目 给定两个非空二叉树 s 和 t,检验 s 中是否包含和 t 具有相同结构和节点值的子树。s 的一个子树包括 s 的一个节点和这个节点的所有子孙。s 也可以看做它自身的一棵子树。 示例 1: 给定的树 s:3/ \4 5/ \1 2 给定的树 t:4 / \1 2 返回 tr…

FastAPI:Python 世界里最受欢迎的异步框架

FastAPI:Python 世界里最受欢迎的异步框架:https://www.cnblogs.com/traditional/p/14733610.html