ACL'21 | 多模态数值推理新挑战,让 AI 学解几何题

文 | 陈嘉奇
编 | 小轶

从小到大,数学都是一门令人头秃充满魅力的学科。从基本的代数、几何,到高数微积分,各类数学问题都对答题者的逻辑推理能力都有着不同程度的挑战。

而逻辑推理能力一直以来都是 AI 发展的核心目标之一。学术界对于 AI 自动解数学题的研究也已有时日。由于数学题对于各类复杂逻辑推理能力的要求,该任务往往可以作为一个很好的基准,用以评估 AI 的智能化水平。

但近年来的相关研究还是局限在数学应用题(MWPs)上。任务难点集中在如何把文字形式的问题描述,转换为数学化的推理过程。任务难度还是很高的,毕竟咱真人也没有做得特别好 (:з」∠)

可以看到,之前工作研究的这类数学题都只涉及文字形式的问题描述,整个过程是“单模态”的。但我们从小到大积攒的丰富刷题经验告诉我们:不是所有数学题都是“单模态”任务,还有一类题,是要看图说话的!我们称之为,几何题。

今天介绍的这篇 ACL'21 Finding 的论文,就在此前工作的基础上又往前进了一步,探究了如何使得 AI 自动化解答几何题。与之前的单模态问题相比,几何题的解答有以下几点全新的挑战:

  • 图表中蕴含很多文本中不具备的复杂信息,比如点、线的相互位置关系,模型需要充分地解析图表信息

  • 模型需要同时理解文本和图表,并进行跨模态的数值推理

  • 题目中还涉及一些知识点(如勾股定理)的运用,模型需要学会运用这些知识。

也就是说,几何题的解答是一个 多模态数值推理 的过程。它同时包含了多模态逻辑推理 两大热点研究主题,值得关注一下。

论文标题
GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning

论文链接:
https://arxiv.org/abs/2105.14517

GitHub链接:
https://github.com/chen-judge/GeoQA

GeoQA基准

由于之前已有的几何题数据集规模极小,只有大概200题。这篇文章先从数据集入手,提出了 GeoQA 数据集,共有5010道几何题,标注了丰富的题目信息,包括题目描述题目类型运用的知识点解题的过程

▲图一:GeoQA 示例

为了规范化对解题过程的描述,该文设计了一系列所谓程序语言(program),包括一些基本操作OP、常数Const、题目变量N、过程变量V。而这些program可以直接被计算机一步一步地执行,计算出一个最终的答案。比如在图一中,(PythagoreanMinus, N0, V0) 就代表利用勾股定理和相减操作,对题目中出现的半径长度5(N0)与上一步执行得到的OE长度3(V0)进行运算,求得AE的长度为4(V1)。

也就是说,program可以作为一个桥梁,把人类的解题过程转化为计算机更容易理解的程序语言。这样神经网络模型就可以通过预测这些program,来做出可解释的数值推理。

NGS模型

在方法部分,文章提出了一个用于解决几何问题的神经网络模型Neural Geometric Solver (NGS),对几何题的多模态数据进行建模:

  • 首先使用两个编码器,分别对文本和图表信息进行编码

  • 使用一个基于协同注意力机制(co-attention)的推理模块来融合文本和图表的表征

  • 基于上一步得到的跨模态融合表征,模型用解码器直接预测出可执行的program序列。

前文也有提到过,几何题存在如何充分解析图表信息以及如何运用定理知识的挑战。所以该工作,又提出了三个辅助任务来增强NGS的语义表征能力。这三个任务分别是:拼图位置预测几何元素预测知识点预测

前两个任务是为了强化图表编码器的。由于模型里图表编码部分用的是ResNet,预训练时使用的都是一些自然图像,和我们研究的几何题图表还是有很大差异的。所以很自然地想到了,用自监督的方式来训练一个更好的图表编码器,包括拼图位置预测和几何元素预测。

拼图位置预测是把图表划分成3x3片区域,再打乱各片区域的顺序,并让模型去测它们的相对位置关系,借以增强图表编码器对图表信息的理解。几何元素预测则是让模型去预测图表中出现的几何元素,比如三角形、圆形等等,也可以起到增强图表编码器的作用。

第三个辅助任务,知识点预测,训练模型去预测每道题对应的知识点,旨在使模型能够更加准确地运用定理知识。整个数据集共涉及50个知识点,而每个问题包含一至多个知识点,因而这个预测过程也就是一个多标签分类问题。

▲NGS结构

实验

下图是一些主要的实验对比结果及分析。其中,

  • Human代表的是人类水平,是由十个很擅长几何题的学生做出来的结果。神经网络模型与之仍有很大差距,在未来还有很大的研究空间。

  • W/O Program指的是不使用文章定义的一系列program来规范化描述解题过程,而直接用分类的方式预测结果。这一类中的三个baseline是一些在VQA任务上的隐式推理模型。这类模型的性能普遍比较低,证明了program定义的必要性。

  • Text-Only是只使用文本模态求解几何题。性能较差,说明了在几何题上进行多模态推理的必要性。

  • Text-Diagram同时使用文本和图表。相比于一些简单的融合方法,本文的NGS模型取得了最好的性能。

也有 Ablation Study, 分析了本文提出的各个辅助任务的具体效果。

总结

本文首次探究了 AI 自动化解答几何题任务,搜集了大规模的几何题问答数据集GeoQA,并基于定义的program对该数据集进行了人工标注,帮助模型去理解、预测程序化的解题过程。此外,本文提出NGS模型以建模几何题多模态信息,并引入了多个辅助任务,来提升其在几何题问答任务上的性能表现。

几何题解答任务涉及了多模态逻辑推理等多个当今热点研究主题,值得关注。或许在未来,AI 也能学会自己解题,甚至充当智能教师,给教育行业带来一场颠覆性的智能变革。

寻求报道、约稿、文案投放:
添加微信xixiaoyao-1,备注“商务合作”

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478426.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 - ICLR2021 | 从信息论的角度提高语言模型的鲁棒性

笔记整理 | 胡楠,东南大学来源:ICLR 2021论文下载地址:https://arxiv.org/pdf/2010.02329.pdf动机最近的研究表明,BERT和RoBERTa这种基于BERT的模型容易受到文字对抗攻击的威胁。论文旨在从信息理论的角度解决此问题并提出InfoBER…

LeetCode 74. 搜索二维矩阵(二分查找)

1. 题目 编写一个高效的算法来判断 m x n 矩阵中,是否存在一个目标值。该矩阵具有如下特性: 每行中的整数从左到右按升序排列。 每行的第一个整数大于前一行的最后一个整数。 示例 1: 输入: matrix [[1, 3, 5, 7],[10, 11, 16, 20],[23, 30, 34,…

AINLP-Archive:AINLP文章存档计划

AINLP-Archive:AINLP文章存档计划:https://mp.weixin.qq.com/s/dCzmlRLTb0aSxkq7jefc_g

美团点评旅游搜索召回策略的演进

本文内容与6月22日第22期美团点评技术沙龙“美团点评AI实践”主题演讲一致,欢迎大家去现场和作者交流。 关注“美团点评技术团队”微信公众号,第一时间获取沙龙最新信息,还可以查阅往期沙龙PPT/视频。 美团点评作为最大的生活服务平台&#x…

从论文到PPT,一键生成!从此报告不用愁!

文 | 子龙编 | 小轶俗话说:“行百步者半九十”,论文接受固然可喜可贺,然而这只是万里长征第一步。一份具有影响力的工作少不了一个后期的宣传,做好一个PPT绝对是一个技术活。不知道小伙伴们平时怎么做PPT,是复制粘贴长…

资源征集 | 2021年全国知识图谱与语义计算大会开放资源征集(Resource Track)通知...

大会时间:2021年8月18日-21日,广州资源征集截止: 2021年5月20日开放的资源对促进知识图谱和语义计算相关的科学研究及企业应用十分重要。CCKS 2021将组织开放资源征集(Resource Track),旨在支持和促进学术界和工业界的…

搜索引擎和网站中的高级搜索技巧

“ 在浩瀚的互联网中精准的找到需要的信息是一项必备的技能,而各大搜索引擎google,baidu,bingd等都提供有高级搜索技巧和语句可以帮助我们更快速更准确的找到我们需要的信息。” 01 — 关键字搜索 在搜索时使用关键字搜索是最基础的搜索技巧,简而言之…

WebView性能、体验分析与优化

在App开发中,内嵌WebView始终占有着一席之地。它能以较低的成本实现Android、iOS和Web的复用,也可以冠冕堂皇的突破苹果对热更新的封锁。 然而便利性的同时,WebView的性能体验却备受质疑,导致很多客户端中需要动态更新等页面时不得…

LeetCode 240. 搜索二维矩阵 II(二分查找 分治)

文章目录1. 题目2. 解题2.1 从左下角或者右上角开始搜索2.2 分治算法1. 题目 编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target。该矩阵具有以下特性: 每行的元素从左到右升序排列。 每列的元素从上到下升序排列。 示例: 现有矩阵 matrix 如下…

NLP哪个细分方向最具社会价值?

文 | 小戏让我们来大胆设想一个场景,老板突然发财搞到一笔钱,大手一挥给你五百万,让你去做自然语言处理的研究,你该先研究哪一个细分领域?机器翻译好像不错,信息抽取也很必要,对话系统更是 NLP …

论文浅尝 | 通过阅读实体描述进行零样本的实体链接

笔记整理 | 赖泽升,东南大学本科生来源:ACL2019动机先前实体链接的大多数工作都着重于与通用实体数据库的链接,通常希望链接到专门的实体词典,例如法律案件,公司项目描述,小说中的字符集或术语表。但这些工…

知识图谱-数据集

原文链接:https://blog.csdn.net/qq_21097885/article/details/104562276 DBpedia 网址:https://wiki.dbpedia.org/ 简介: DBpedia 是一个很特殊的语义网应用范例,它从维基百科(Wikipedia)的词条里撷取出结构化的资料,…

LeetCode 29. 两数相除(位运算)

1. 题目 给定两个整数,被除数 dividend 和除数 divisor。将两数相除,要求不使用乘法、除法和 mod 运算符。 返回被除数 dividend 除以除数 divisor 得到的商。 示例 1: 输入: dividend 10, divisor 3 输出: 3示例 2: 输入: dividend 7, divisor -…

Git使用的奇技淫巧

源 | Linux公社Git 版本对比相关操作[1] 输出工作区和暂存区的不同。git diff[2] 展示暂存区和最近版本的不同git diff --cached[3] 展示暂存区、工作区和最近版本的不同git diff HEAD[4] 展示本地仓库中任意两个 commit 之间的文件变动git diff <commit-id> <commit-…

Python-接口开发入门

Python-接口开发入门&#xff1a;https://www.cnblogs.com/zhxwind/p/11202629.html

Hyperloop,让发布简洁高效

Hyperloop 是什么&#xff1f; Hyperloop 是服务于美团点评客户端的组件发版、持续集成、App 打包构建、资源调度等各个环节的发布调度系统。名称起源于美国 Elon Musk 构想的 Hyperloop 超级高铁&#xff0c;象征着现代、简洁、高效。 Hyperloop 提供了一站式的平台&#xff0…

论文浅尝 | 基于潜在类别信息的实体链接

笔记整理 | 黄一凡&#xff0c;东南大学本科生来源&#xff1a;AAAI2020链接&#xff1a;https://arxiv.org/pdf/2001.01447v1.pdf一、简介作者意识到在利用预训练模型进行实体链接时&#xff0c;往往会将类别信息忽略&#xff0c;因此会导致模型将指称链接到拥有错误类别的错误…

LeetCode 166. 分数到小数(小数除法)

1. 题目 给定两个整数&#xff0c;分别表示分数的分子 numerator 和分母 denominator&#xff0c;以字符串形式返回小数。 如果小数部分为循环小数&#xff0c;则将循环的部分括在括号内。 示例 1: 输入: numerator 1, denominator 2 输出: "0.5"示例 2: 输入: …

百度飞桨弯道超车了吗?!

事情是这样的...前不久&#xff0c;小夕注意到了一份来自权威评测机构IDC发布的《2020年下半年深度学习平台市场份额报告》&#xff1a;▲IDC:2020年中国深度学习平台市场综合份额top 5立刻惊了&#xff01;印象里百度飞桨三年前还只是一个低调、小而美的深度学习框架&#xff…

百度开源 FAQ 问答系统(AnyQ)安装---Linux(无docker)+小白编译AnyQ-dockerlinux[CentOs]

小白编译AnyQ-docker&linux[CentOs]——AnyQ系列之一https://blog.csdn.net/u011818766/article/details/104117469 原文链接&#xff1a;https://blog.csdn.net/qq_28385535/article/details/83213822 1.系统下载及环境安装 1.github地址&#xff1a;https://codeload.g…