AI终于攻陷了数学领域!高数考试超过普通博士??

53671dd93b1d0b2323894d1b19bad626.jpeg

文 | 梦晨 丰色 发自 凹非寺
源 | 量子位

高数考不好,不知道是多少人的噩梦。

d305d408e5a97e309e8d32cd72643a51.png

如果说你高数考得还不如AI好,是不是就更难以接受了?

没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平

课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。

430b8359d2a80e7e6a177b5db885213d.png

这件事最近还登上了微博热搜。

004d8f442e13812d8eb74d19026ab662.png
▲“仅”得81分,对AI的期待也太高了吧

现在,谷歌那边又传来了最新大消息:

不止数学,我们的AI甚至在整个理工科上,都已经拿到最高分啦!

看来在培养“AI做题家”这件事上,科技巨头们已经卷出了新高度。

0eab703b01eec8e1563943203e3be92c.png

谷歌这个最新AI做题家,参加了四门考试。

数学竞赛考试MATH,以往只有三届IMO金牌得主才拿过90分,普通的计算机博士甚至只能拿到40分左右。

至于别的AI做题家们,以前最好成绩只有6.9分……

但这一次,谷歌新AI却刷到了50分,比计算机博士还高

综合考试MMLU-STEM,内含数理化生、电子工程和计算机科学,题目难度达到高中甚至大学水平。

这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,直接将分数拉高了20分左右。

5646d277097a09f2a9c82cfe62ad3297.png

小学数学题GSM8k,直接将成绩拉升到78分,相比之下GPT-3还没及格(仅55分)。

就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程,谷歌新AI也能在200多道题中,答出将近三分之一

4c53cb1cd90bbfb81d90821e60326cb8.png

最重要的是,与OpenAI凭借“编程技巧”取得数学高分的方法不同,谷歌AI这一次,走的可是“像人一样思考”的路子——

它像一个文科生一样只背书不做题,却掌握了更好的理工科解题技巧。

值得一提的是,论文一作Lewkowycz还分享了一个论文中没写到的亮点:

我们的模型参加了今年的波兰数学高考,成绩比全国平均分还要高

64bd0ebf3c0ca0fdc5204bdc08703ddc.png

看到这里,有的家长已经坐不住了。

如果告诉我女儿这件事,我怕她用AI做作业。但如果不告诉她,就没有让她对未来做好准备!

468cb1f4e4312033e4d6f981a83f8f5b.png

在业内人士看来,只靠语言模型,不对算数、逻辑和代数做硬编码达到这种水平,是这项研究最惊艳的地方。

8a949c16f812d37bd929ca9c2d3017a8.png

那么,这是怎么做到的?

AI狂读arXiv上200万篇论文

新模型Minerva,基于Pathway架构下的通用语言模型PaLM改造而来。

分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。

Minerva做题与Codex的思路完全不同。

Codex的方法是把每道数学题改写成编程题,再靠写代码来解决。

而Minerva则是狂读论文,硬生生按理解自然语言的方式去理解数学符号

在PaLM的基础上继续训练,新增的数据集有三部分:

主要有arXiv上收集的200万篇学术论文,60GB带LaTeX公式的网页,以及一小部分在PaLM训练阶段就用到过的文本。

aa85df331e4482249c89b1b2e0518063.png

通常的NLP数据清洗过程会把符号都删掉只保留纯文字,导致公式不完整,比如爱因斯坦著名的质能方程只剩下了Emc2。

fab0a669fd6bc45748a9c55acba32487.png

但谷歌这次把公式都保留,和纯文本一样走一遍Transformer的训练程序,让AI像理解语言一样去理解符号。

与之前的语言模型相比,这是Minerva在数理问题上表现更好的原因之一。

但与专门做数学题的AI相比,Minerva的训练中没有显式的底层数学结构,这带来一个缺点和一个优点。

缺点,是可能出现AI用错误的步骤得到正确答案的情况。

优点,是可以适应不同学科,即使有些问题无法用正规的数学语言表达出来,也可以结合自然语言理解能力解出来。

到了AI的推理阶段,Minerva还结合了多个最近谷歌开发的新技术。

先是Chain of Thought思维链路提示,今年一月由谷歌大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程,正确回答本来会答错的题目。

80f1fd80655e437a1cb51d100783afcc.png

再有是谷歌和MIT合作开发的Scrathpad草稿纸方法,让AI把分步计算的中间结果临时存储起来。

3c581e272b55a4c50c7b2d6a338c5719.png

最后还有Majority Voting多数表决方法,也是今年3月才发表的。

让AI多次回答同一个题目,选择答案中出现频率最高的。

fd3f6c3f6eeae53e6baf41009ec54a76.gif

所有这些技巧全用上以后,5400亿参数的Minerva在各种测试集中达到SOTA。

甚至80亿参数版的Minerva,在竞赛级数学题和MIT公开课问题中,也能达到GPT-3最新更新的davinci-002版本水平。

0aa8da2d0d19c262da30aff5c2058d4a.png

说了这么多,Minerva具体都能做出哪些题目?

对此谷歌也开放出了样例集,一起来看一下。

数理化生全能,连机器学习都会

数学上,Minerva可以像人类一样按步骤计算数值,而不是直接暴力求解。

23797d465fa04fa58ce8fec617203dcb.png

对于应用题,可以自己列出方程式并做简化。

417b9de807491ccf835aa1d2786c280a.png

甚至还可以推导证明。

48cf9c730dcef8e303969def5513bc34.png

物理上,Minerva可以求中性氮基态(Z = 7)电子的总自旋量子数这样的大学水平题目。

4f0424376e687980db1f51b31ead6bf2.png

生物和化学上,Minerva凭借语言理解能力也可以做各种选择题。

以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响?

ffc1a62232c99e54d60bd82084d0a6e6.png

以下哪种是放射性元素?

100c343081e34d833235f4b4c56dad6a.png

以及天文学:为什么地球拥有很强的磁场?

fc038b065d005f72c50700bbbef59516.png

机器学习方面,它通过解释“分布外样本检测”的具体含义,从而正确了给出这个名词的另一种说法。

d41e0fb8de088a649cd991561f2adb83.png

……

不过,Minerva有时也会犯一些低级错误,比如把等式两边的√给消了。

4081a0ba72489a87f411cdffd723ddc2.png

除此之外,Minerva会出现的推理过程错误但结果对的“假阳性”情况,比如下面这种,有8%的可能性。

40fe450cfe721a39740807fe5a46ac59.png

经过分析之后,团队发现主要的错误形式来自计算错误和推理错误,只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。

其中计算错误可以轻易通过访问外部计算器或Python解释器解决,但其他种类的错误因为神经网络规模太大就不太好调整了。

8b730299a3bc183589c207de28b8c969.png

总的来看,Minerva的表现让很多人感到惊艳,纷纷在评论区求API(可惜谷歌目前并没有公开计划)。

b6dbf5c575b2f9476e850461765fa3ab.png

有的网友想到,加上前几日让GPT-3解题正确率暴涨61%的“哄一哄”大法,它的准确率或许还可以再提高?

587a02458bfe79dffdb9b7ef84927491.png

不过作者的回应是,哄一哄方法属于零样本学习,再强恐怕也比不上带4个例子的少样本学习。

466ec11db46ab287837dfeb1fc8e921d.png

还有网友提出,既然它可以做题,那么能不能反过来出题?

aecf262ec81a618f6397d8025186eb4e.png

事实上用AI给大学生出题这件事,MIT已经联合OpenAI在做了。

他们把人类出的题和AI出的题混在一起,找学生来做问卷调查,大家也很难分清一道题是不是AI出的。

d1da313aa889ab717824d0a454c653ee.png

总之现在的情况,除了搞AI的在忙着读这篇论文以外。

学生们盼着有一天能用AI做作业。

329153554fb8c052e2df6b620d385b8b.png

老师们也盼着有一天能用AI出卷子。

2afb6e87482e31aa488530f4c5402918.png

论文地址:
https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo地址:
https://minerva-demo.github.io/

相关论文:
Chain of Thought
https://arxiv.org/abs/2201.11903
Scrathpads
https://arxiv.org/abs/2112.00114
Majority Voting
https://arxiv.org/abs/2203.11171

2f4f5cff21f28e9accdd90103e3bd9c3.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

5d2a7329a034864d6b507998d4beafbc.gif 1a69b580993560e794ec01a84545e980.png

[1] https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

[2] https://twitter.com/bneyshabur/status/1542563148334596098

[3] https://twitter.com/alewkowycz/status/1542559176483823622

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477203.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

十年内就能实现通用人工智能?先把组合泛化研究明白吧!

文 | Albert Yang编 | 白鹡鸰"乌鸦为什么像写字台?"因为它们都能produce a few notes (鸟叫/笔记),因为乌鸦和写字台都是思想与记忆的象征(北欧神话),又或者因为,这本身就…

LeetCode 1366. 通过投票对团队排名(自定义排序)

1. 题目 现在有一个特殊的排名系统,依据参赛团队在投票人心中的次序进行排名,每个投票者都需要按从高到低的顺序对参与排名的所有团队进行排位。 排名规则如下: 参赛团队的排名次序依照其所获「排位第一」的票的多少决定。如果存在多个团队…

Spring Boot中使用JdbcTemplate访问数据库

之前介绍了很多Web层的例子,包括构建RESTful API、使用Thymeleaf模板引擎渲染Web视图,但是这些内容还不足以构建一个动态的应用。通常我们做App也好,做Web应用也好,都需要内容,而内容通常存储于各种类型的数据库&#…

LeetCode 1367. 二叉树中的列表(双重递归)

1. 题目 给你一棵以 root 为根的二叉树和一个 head 为第一个节点的链表。 如果在二叉树中,存在一条一直向下的路径,且每个点的数值恰好一一对应以 head 为首的链表中每个节点的值,那么请你返回 True ,否则返回 False 。 一直向…

Spring Boot构建RESTful API与单元测试

首先,回顾并详细说明一下在快速入门中使用的Controller、RestController、RequestMapping注解。如果您对Spring MVC不熟悉并且还没有尝试过快速入门案例,建议先看一下快速入门的内容。 Controller:修饰class,用来创建处理http请…

推荐系统用户反馈延迟新解法!阿里提出CVR无偏估计算法

文 | Shona在广告、电商场景中,流式样本通常只会在一个较短的窗口采样用户的行为,但用户从点击到转化的时间窗口可能很长,比如逛淘宝时,点击一件商品后可能在其他平台对比很久后才会下单,这导致在流式样本采样的时间窗…

LeetCode 1368. 使网格图至少有一条有效路径的最小代价(BFS最短路径,难)

1. 题目 给你一个 m x n 的网格图 grid 。 grid 中每个格子都有一个数字,对应着从该格子出发下一步走的方向。 grid[i][j] 中的数字可能为以下几种情况: 1 ,下一步往右走,也就是你会从 grid[i][j] 走到 grid[i][j 1]2 &#xf…

Spring Boot工程结构推荐

今天看了一位简书上朋友发来的工程,于是想到应该要写这么一篇。前人总结的最佳实践案例可以帮助我们免去很多不必要的麻烦。花点时间来看一下本文,绝对物超所值。 工程结构(最佳实践) Spring Boot框架本身并没有对工程结构有特别…

GPT-3写了一篇论文

文 | Pine 发自 凹非寺源 | 量子位咦?这篇论文有点不对劲,第一作者看起来不像是人类的名字:一作的署名GPT-3,所属单位OpenAI。是的!你没看错,GPT-3写了一篇关于自己的论文。此前,GPT-3已经撰写过…

程序员面试金典 - 面试题 02.03. 删除中间节点

1. 题目 实现一种算法,删除单向链表中间的某个节点(除了第一个和最后一个节点,不一定是中间节点),假定你只能访问该节点。 示例: 输入:单向链表a->b->c->d->e->f中的节点c 结果…

Spring Boot开发Web应用

Spring Boot快速入门中我们完成了一个简单的RESTful Service,体验了快速开发的特性。在留言中也有朋友提到如何把处理结果渲染到页面上。那么本篇就在上篇基础上介绍一下如何进行Web应用的开发。 静态资源访问 在我们开发Web应用的时候,需要引用大量的j…

双塔模型的最强出装,谷歌又开始玩起“老古董”了?

文 | 兔子酱双塔模型已经证明在搜索和问答任务中是非常有效的建模方法,理论和业务落地已相当成熟。双塔根据参数共享程度不同,通常会归纳成两类:Simese dual encoder和Asymmetric dual encoder,前者参数结构完全对称,后…

LintCode解题目录

看见 LintCode 的代码能力测试CAT(Coding Ability Test)挺好,有倒计时,挺有面试紧迫感。做个记录。 另有本人 LeetCode解题目录、《程序员面试金典》解题目录、《剑指Offer》解题目录 我的 LintCode 主页 75 / 1505 算法问题 …

BERTopic:NLP主题模型的未来!

文| ZenMoore编| 小轶以前我一直以为,主题建模(提取文档的主题词)这种机器学习时代就开始研究的基础工具,现在肯定已经到头了,虽然...有时效果可能不是那么让人满意。但突然看到一则推文:“彻底疯了!不需要预先清洗数据…

K 近邻法(K-Nearest Neighbor, K-NN)

文章目录1. k近邻算法2. k近邻模型2.1 模型2.2 距离度量2.2.1 距离计算代码 Python2.3 kkk 值的选择2.4 分类决策规则3. 实现方法, kd树3.1 构造 kdkdkd 树Python 代码3.2 搜索 kdkdkd 树Python 代码4. 鸢尾花KNN分类4.1 KNN实现4.2 sklearn KNN5. 文章完整代码k近邻法&#xf…

通用人工智能可行吗?组合泛化视角漫谈

"乌鸦为什么像写字台?"因为它们都能produce a few notes (鸟叫/笔记),因为乌鸦和写字台都是思想与记忆的象征(北欧神话),又或者因为,这本身就是一句没有道理的话&#xff…

Transformer 在美团搜索排序中的实践

引言 美团搜索是美团 App 连接用户与商家的一种重要方式,而排序策略则是搜索链路的关键环节,对搜索展示效果起着至关重要的效果。目前,美团的搜索排序流程为多层排序,分别是粗排、精排、异构排序等,多层排序的流程主要…

ACL‘22杰出论文:Prompt范式有bug!

‍文 | pythonGPT-3等超大模型的兴起,也带来了 in-context learning (语境学习)的新范式。在语境学习中,模型并不使用梯度下降,根据监督样本调整参数;而是将监督样本的输入输出接起来作为prompt&#xff08…

程序员面试金典 - 面试题 02.06. 回文链表(快慢指针+链表反转)

1. 题目 编写一个函数,检查输入的链表是否是回文的。 示例 1: 输入: 1->2 输出: false 示例 2: 输入: 1->2->2->1 输出: true 进阶: 你能否用 O(n) 时间复杂度和 O(1)…

美团外卖持续交付的前世今生

0. 前言 美团外卖自2013年创建以来,业务一直在高速发展,目前日订单量已突破3000万单,已成为美团点评最重要的业务之一。美团外卖所承载的业务,从早期单一的美食业务发展成为了外卖平台业务。目前除餐饮业务外,闪购、跑…