DeepMind 发了篇论文,把我看笑了

43f596bc27bb38e2491d51adcef10baf.png

文 | severus

近日,曾开发出举世瞩目的 AlphaGo 的 DeepMind,在 ArXiv 上发表了一篇文章,名为:

Meaning without reference in large language models

文中提到,大参数规模的语言模型是已经具备了部分类人智能的,但由于它们仅仅接受了纯文本数据的训练,所以其能力也没有得到充分的发挥。

文中举出了大量的例子,试图证明 LLMs,或其他以 transformers 为主要结构的大模型,已经具备了和人类表现类似的智能能力。

DeepMind 一直是通用人工智能(AGI)探索路上的先行者,今年上半年,他们也曾提出了 Gato,在604个不同的任务上都取得了不错的表现,大有 AGI 模型之势。

在笔者看来,其至少证明了,当模型的容量足够大的时候,其的确能够容纳合格地完成不同的窄领域任务所需的知识,更像是给我们展现了通用agent的可行性,但真的说是智能的话,似乎同笔者的认知有所偏差。

dd328b1a68735773a83c26ef41180626.jpeg

论文标题:
Meaning without reference in large language models

论文地址:
https://arxiv.org/abs/2208.02957

人的智能表现

文章提到,人的某些智能表现一定不是从大数据中得到的。例如:

  • 抽象概念的能力:在人的知识体系中,存在大量的抽象概念,而这些抽象概念几乎不可能从与世界的交互中得来。如:正义、法律、才智等,并且人可以轻易扩展这类概念。

  • 对事物本身的理解可以脱离载体:当写有协议的纸张被损坏的时候,协议本身依旧是存在的;当记录法律的书本被遗失的时候,法律本身依旧是生效的。

  • 想象能力:人能够想象不在眼前的事物,也能够想象世界上不存在的东西,甚至可以去想象一个架空的世界。

  • 逻辑推断能力:人可以通过已知概念的组合,即可推断出新的概念。如数学证明,理论物理学的发展等。

文章认为,这些能力几乎不可能仅从大数据中得到,人也不可能仅仅通过大数据归纳学习,就具备了这些能力,而(文章认为)大量的例子表明,大模型已经初步具备了上述的能力,所以,当前大模型的结构已经符合了智能。

神农尝百草

首先,文章中所提到的人的学习能力,以及大量的智能表现,几乎都是已经成长了若干年的人的表现,即,人已经经历了超大规模数据的训练,同时,所提到的示例,也几乎是已发展成熟的领域,人们已经摸索出了最高效的指导方式,比如原文中关于水分子那一段(而它没提到的是,哪怕有这么成熟的指导体系,人想要掌握那些知识,也是要不断地试错。

想想,为了学会四则运算,你做了多少道算术题?为了考试写对化学反应式,你做了多少次训练?)。而没去考虑,想要去对比模型和人的状态,应当从完全空白开始。

595274d974838ff4f01b50047ad3d4b2.png

实际上,新生儿和模型一样,在刚刚来到这个世界的时候,学习知识的途径,也仅仅有与这个世界的交互,即超大数据量的归纳学习。认知心理学实验表明,新生儿在刚刚出生的时候,会对所有的声音信号有注意力反应,而几个月之后,会对自己父母的声音有更强的注意力反应。对语言的反应也一样,出生几个月之后,新生儿会对自己的母语有更高的注意力。

同时,认知神经科学的实验也表明,新生儿在出生的头两年,脑内的神经链接是不断地变多的,而在接下来的十几年,则会不断减少,直到达到一个稳定的水平。

也就是说,新生儿和大模型一样,原本也是具有任意泛化的能力(如海伦·凯勒自传中,她曾描述小时候无法学习到什么是水),人类归纳学习得不够,也很容易发生“过拟合”(一朝被蛇咬,处处闻……啊不是,十年怕井绳,你看。笔者也过拟合了吧[doge]),而大量的交互,或大数据量的训练,实际上是一种剪枝行为。那么,所谓概念的学习,早期语言的学习,也是大量的交互而形成的。

比如,婴幼儿在见到家里的宠物狗时,他的父母叫了宠物狗的名字,他就很容易将那个名字和狗这个形象绑定起来,而不是直接得到了“狗”这一概念,他们也需要见到足够多的狗,知道了足够多不同的名字,才会将具体的名字和狗分离开。

抽象的概念,如正义、法律等,也是要经过大量的修正之后,才形成大家都基本差不多的认知。不然,也不必去从小在行为上规范、修正,去让一个孩子去遵守公序良俗。

哪怕是成年人,面对人类知识体系上完全空白的领域时,也是通过大量与世界的交互,大数据量的总结,才形成了一套完整的知识体系。从亚里士多德到伽利略,两千年的归纳试错,才形成了牛顿第一定律。我们不能够否认,人类从零开始形成新的知识体系时,哪怕是刚刚接触一个新的电子游戏,也往往是从归纳开始的。

只不过,有一点文章说的是有道理的,纯文本的数据的确是不够的。纯文本本身是已经抽象过的东西,相比之下,人类能够得到的感知信号种类就太多了。若仅仅通过文本数据,人类所能习得的概念或许也很有限。

我们不能去否认,归纳学习在智能产生的过程中,起到的巨大作用,但显然,在对某一领域的认知达到了一定的水平之后,人就不仅仅依靠归纳学习去获取新的知识了。我们能够不断地利用已掌握的概念,去推演新的概念,也逐渐从观测现象,总结知识转换到设计实验,验证理论这样的学习模式。这种能力,即为人的演绎能力。

大模型具备了类人智能?

这篇文章认为,大模型一定程度上已经具备了类人的推断能力了。如 DeepMind 发表的另一篇实验报告[1],试图证明,大模型已经具备了逻辑推理能力,例如在三段论问题上,以及华生选择任务上,大模型在零样本上,都取得了一些分数。

华生选择任务是一个典型的逻辑问题,例如:桌面上有四张卡,每张卡的两面各表示了同一个人的动作。现在可见的一面是“借车”、“没借车”、“为车子加油”、“没为车子加油”。你至少要翻开哪些牌,才能验证这句论述“如果借了车,就要为车子加油”?

这篇工作笔者也花时间读了一下,但是,其给出的数据,以及模型的表现,并不足以证明模型的推理能力,原因在于,模型正向的表现,很像是数据中带有统计显著性的部分,即数据的同质部分。当然,报告中给出的另外一个实验,即把答案给抹掉,或者打乱,模型的效果骤降,似乎也佐证了笔者的观点。

另一篇工作[2]想要证明大模型掌握了“颜色”这一概念,其列出的证据为,大模型对颜色相关词语的表示,和直接在视觉信号上学到的颜色表示,在几何空间上有高度的相似性。

766dd6332c983f3f8dcb230679ff2e08.png

恕我直言,这不正是分布式表示的立足点吗?我们有大量的自然文本去应用不同的颜色词语,其在几何空间上的归纳偏置正应该有这样的表现啊?

同时,文章也认为,AlphaFold 能够生成完全没有见过的蛋白质结构,也符合了前文对人类想象能力的描述。

那我就要说了,蛋白质结构形成,虽复杂,但是以笔者浅薄的生物学知识,仍旧认为其问题空间仍旧是极其有限的,例如本身分子形成时,各类化学键及其表现出的化学性质,几乎已经是很明确的规则,无论是通过已有大数据归纳,还是通过大量交互去强化学习,我认为模型是非常能够具备这种能力的,这就如同 AlphaGo 可以下出所有棋手都没见过的棋路,也可以在围棋规则内下赢高手们一样。

在已有明确规则下不断计算、试错,最终有类人,甚至超越人类的表现,这正是计算机的强项,但我们也不能将这种机械的运算归为人类的智能。

另有一些文章,认为在一些问题上,fRMI 扫描到人类神经激活的现象,和神经网络有相似性,则更像是一种预先假定结论而去有目的性的倒推现象,且实验中的问题本身也是大量归纳即可学到的,笔者认为更不存在什么证明价值。

如果,大模型真的具备了文章所主张的那种智能,那么它应该知道什么是“不合理”,以及什么是“不知道”

例如我们如果问一个大模型,一个完全不合理的问题(比如,我的脚有几只眼睛),它应该能够分辨出这个问题无法回答,但如果小伙伴们感兴趣,可以去尝试一下现在已有的大模型,看它们会给你什么样的答案。

e932191ad34837a1215caff864eb6254.png

我们当然也可以去训练大模型,去回答这种问题,但是,我们总归是能够从各种刁钻的角度找出来不同的问题,去让大模型失败的。

原因就在于,我们知道什么是“不合理”,什么时候是“不知道”。对于广阔的不合理、不知道,我们是有明确的认知的,但是统计模型是没有这种推断能力的。

多说一句,如果统计模型真的具备这种能力,科学计算也不会使用半逻辑半统计的方式了

而我们能够“凭空”拓展我们的理论,能够通过一次的修正信号去修改整个行为,也正是得益于这种演绎能力。

很遗憾的是,在初始状态下,人类的学习条件似乎还比不上模型,但人类获得了这种能力,而统计模型没能得到这种能力。

或许当我们告诉模型,它的行为是错误的时候,不够“斩钉截铁”(梯度下降只能“逐步”地修正模型的行为),但哪怕我们能够去精准更新参数,统计模型的推断方式,也不允许它去推断“没有”(即统计模型仍旧不知道分布外的问题是存在于分布外的,毕竟仍旧是连接的)。

何况,统计模型的结构与其训练算法,本就是一体的。人类或许有什么机制能够精准更新自己的大脑,但现有统计模型框架之下,我们并没有办法完成这一点。

哪怕我们真的去描述“知识”(实际上,这也是个几乎不可能的任务),也难以将之传授给统计模型,毕竟,不合理的泛化,几乎没有办法去规避掉,最终的表现,也一定和大数据训练一样,数据丰富的地方,相对合理一些,数据稀疏的地方,它就开始胡乱泛化了。

人学会进行这么大规模的归纳,实际上是低能耗的,但是大模型则不然,想要训练一个百亿级别参数的模型,其耗费的资源是相当巨额的,恐怕会超过一个人从出生到成长为领域专家所耗费的所有资源。

但是笔者认为,这篇文章提到的一些例子,倒是还有一些其他的价值,比如:

  • 已被模型抽象过的表示,其上层映射起来的确更加简单,如颜色的那个例子,或许这方面工作的拓展,可以对多模态模型提供指导经验,例如 Google 今年的 imagen,用大规模语言模型训练,抽象了语义之后再去指导图片生成,就是一篇不错的尝试

  • 现有的统计模型,及其对应的归纳学习机制,的确部分实现了对大部分基本概念的学习,尤其是增加了多模感知信号之后,那么跳出现有框架,探索新的机制或许更加可行

总结:DeepMind 想干什么

笔者认为,DeepMind 的科学家们一定比笔者厉害得多,它们不可能不知道,这篇文章预设的结论有多么不合理,找到的证据又有多么无力,但是它们为什么要发表呢?

答案是,这篇文章应该不是写给内行看的,而是写给外行看的。

哪怕行内人对当前人工智能的现状是什么样的认知,但是几个简简单单的例子,足够震慑到外行人了,而相比于从业者,其他人显然是更多的,那么只要将这些东西放出来,就足以吸引很多人的眼球,那么这个行业的热度就维持住了。

说这么多,也只是希望,从业者,以及想要从业的同学们,别也被这篇文章唬住了,或者被各路大模型的 PR 唬住了,脚踏实地一些,或做出真东西,或探索新套路。

最后,类人也不应该是 AI 的目标,如果 AI 真的类人了,人类又将如何自处?人类想要的也无非是更廉价、更专业、工作时间更长,且不需要为之安全有多负责的助手,而非另一个竞争者。

毕竟,1(数)2(百)年前,人类在潘(新)多(大)拉(陆)星球上,面对从未见过的人类时,都已痛下杀手,又怎会允许现在的人们,造出一个或许能超越自己的智能呢?[doge]

954de2ba0b2da2dc73d002a2b98ac7f0.png

以上。

090419a7ce0e9054ec7f09fc106a6a97.png萌屋作者:Severus

Severus,在某厂工作的老程序员,主要从事自然语言理解方向,资深死宅,日常愤青,对个人觉得难以理解的同行工作都采取直接吐槽的态度。笔名取自哈利波特系列的斯内普教授,觉得自己也像他那么自闭、刻薄、阴阳怪气,也向往他为爱而伟大。

作品推荐

  1. 深度学习,路在何方?

  2. 数据还是模型?人类知识在深度学习里还有用武之地吗?

  3. 在错误的数据上,刷到 SOTA 又有什么意义?

8f562586e5a56aa91c61f4ea3fed29e5.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

22c8cf50f49e63b8f1ecc30c72885b19.png

[1]. Dasgupta I, Lampinen A K, Chan S C Y, et al. Language models show human-like content effects on reasoning[J]. arXiv preprint arXiv:2207.07051, 2022.

[2]. Abdou M, Kulmizev A, Hershcovich D, et al. Can language models encode perceptual structure without grounding? a case study in color[J]. arXiv preprint arXiv:2109.06129, 2021.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477047.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud Stream消费失败后的处理策略(三):使用DLQ队列(RabbitMQ)

应用场景 前两天我们已经介绍了两种Spring Cloud Stream对消息失败的处理策略: 自动重试:对于一些因环境原因(如:网络抖动等不稳定因素)引发的问题可以起到比较好的作用,提高消息处理的成功率。自定义错误…

LeetCode 1382. 将二叉搜索树变平衡(中序遍历+二分递归)

1. 题目 给你一棵二叉搜索树,请你返回一棵 平衡后 的二叉搜索树,新生成的树应该与原来的树有着相同的节点值。 如果一棵二叉搜索树中,每个节点的两棵子树高度差不超过 1 ,我们就称这棵二叉搜索树是 平衡的 。 如果有多种构造方…

电影:『新警察故事』

【电影名称】:『新警察故事』 【主 演】: 成龙 谢霆锋 杨采妮 蔡卓妍 吴彦祖  【导 演】: 陈木胜 【内容简介】:《新警察故事》是成龙英皇电影公司的处女作,投资超过1亿6000万港元,请来香港顶尖电影…

NLP顶级赛事LIC2022霸榜经验分享!

语言是人类传递信息最重要的媒介,让机器理解语言并进行交互是人工智能的重要挑战。为推动语言与智能领域的技术发展和应用,中国中文信息学会、中国计算机学会和百度公司连续五年联合举办“语言与智能技术竞赛”,为中文NLP研究者和开发者提供同…

Spring Cloud Zuul中使用Swagger汇总API接口文档

有很多读者问过这样的一个问题:虽然使用Swagger可以为Spring MVC编写的接口生成了API文档,但是在微服务化之后,这些API文档都离散在各个微服务中,是否有办法将这些接口都整合到一个文档中?之前给大家的回复都只是简单的…

LeetCode 1381. 设计一个支持增量操作的栈(deque/数组)

1. 题目 请你设计一个支持下述操作的栈。 实现自定义栈类 CustomStack : CustomStack(int maxSize):用 maxSize 初始化对象,maxSize 是栈中最多能容纳的元素数量,栈在增长到 maxSize 之后则不支持 push 操作。void push(int x)…

GARFIELD@10-31-2004

apprentice转载于:https://www.cnblogs.com/rexhost/archive/2004/10/31/59013.html

Spring Cloud构建微服务架构:分布式服务跟踪(入门)【Dalston版】

通过之前的N篇博文介绍,实际上我们已经能够通过使用它们搭建起一个基础的微服务架构系统来实现我们的业务需求了。但是,随着业务的发展,我们的系统规模也会变得越来越大,各微服务间的调用关系也变得越来越错综复杂。通常一个由客户…

有哪些值得计算机专业学生加入的国企?

文 |重庆搬砖喵知乎知乎上最近有个问题很火:有哪些值得计算机专业学生加入的国企?这个问题确实很应今年秋招的景,于是转载了知乎答主重庆搬砖喵 的高赞回答分享给大家。原回答链接:https://www.zhihu.com/question/285730093/answ…

上海著名综合性商厦一览 (1)

上海著名综合性商厦一览 jxjb 2004-10-29 11:53:21 发表于搜狐焦点上海房地产网-谈房论市-东方康洛论坛 主要包括:第一百货东楼 华联商厦 置地广场 友谊欧洲商城 东方商厦 港汇广场 汇金百货 梅龙镇广场 中环广场二百永新 正大广场 上海第一八佰伴友谊南方商城…

LeetCode 1383. 最大的团队表现值(贪心,优先队列,难)

1. 题目 公司有编号为 1 到 n 的 n 个工程师,给你两个数组 speed 和 efficiency ,其中 speed[i] 和 efficiency[i] 分别代表第 i 位工程师的速度和效率。 请你返回由最多 k 个工程师组成的 ​​​​​​最大团队表现值 ,由于答案可能很大&am…

程序员坐牢了,会被安排去写代码吗?

文 | 无念源 | 知乎今天给大家分享一篇有意思的爽文,但也是根据多年之前一个真实报道改编而来的。本文字数较多,建议先收藏,上下班路上、带薪上厕所、浑水摸鱼时再慢慢看~本故事纯属虚构请大家不要随意模仿,后果自负!因…

Dubbo将积极适配Spring Cloud生态,Spring Cloud体系或将成为微服务的不二选择!

2016年,我在博客中发表过一篇《微服务架构的基础框架选择:Spring Cloud还是Dubbo?》获得了很大的阅读量和转载量。在这篇文章中,我主要对比了Spring Cloud与Dubbo所具备的能力,并阐述了个人推崇Spring Cloud的原因。但…

Java sdk及tomcat安装设置

在安装好Java SDK后,还需要设置一些系统变量,系统变量的设置可以在系统属性-高级-环境变量中进行 JAVA_HOMEJAVA安装目录 CLASSPATH… 库路径,可以是目录或jar文件,如C:\j2sdk1.4.0_01\lib\dt.jar;d:\java&#xf…

剑指Offer - 面试题51. 数组中的逆序对(归并排序,求逆序对)

1. 题目 在数组中的两个数字&#xff0c;如果前面一个数字大于后面的数字&#xff0c;则这两个数字组成一个逆序对。输入一个数组&#xff0c;求出这个数组中的逆序对的总数。 示例 1: 输入: [7,5,6,4] 输出: 5限制&#xff1a; 0 < 数组长度 < 50000来源&#xff1a;力…

【小马哥】Spring Cloud系列讲座

这里推荐一个不错的Spring Cloud系列讲座&#xff0c;讲师简介如下&#xff1a; 小马哥&#xff0c;阿里巴巴技术专家&#xff0c;从事十余年Java EE 开发&#xff0c;国内微服务技术讲师。目前主要负责微服务技术推广、架构设计、基础设施、迁移等。重点关注云计算、微服务以及…

名校女教授,强迫其男博士“发生性关系多年”!索赔750万

转自 | 论文项目硕博招聘、磐创AI来源 | FOREIGNDAILY 、双一流高校等早稻田大学是日本的知名大学&#xff0c;但最近这所知名大学却引来了不小的争议。早稻田大学一名25岁的学生&#xff0c;将他的女导师和学校一起告上了法庭&#xff0c;要求他们赔偿自己750万日元&#xff…

剑指Offer - 面试题43. 1~n整数中1出现的次数(找规律+公式)

1. 题目 输入一个整数 n &#xff0c;求1&#xff5e;n这n个整数的十进制表示中1出现的次数。 例如&#xff0c;输入12&#xff0c;1&#xff5e;12这些整数中包含1 的数字有1、10、11和12&#xff0c;1一共出现了5次。 示例 1&#xff1a; 输入&#xff1a;n 12 输出&…

从网上看到的很搞笑的东西

[转]天下无贼经典台词IT版 戴尔&#xff1a;“人心散了&#xff0c;队伍不好带了!“ IBM&#xff1a;“我最烦你们些胡乱降价的了&#xff0c;一点技术含量都没有!“ 惠普&#xff1a;“实话告诉你们&#xff0c;惠普很生气&#xff0c;后果很严重!“ Intel&#xff1a;“你过得…

Spring Cloud实战小贴士:turbine如何聚合设置了context-path的hystrix数据

之前在spring for all社区看到这样一个问题&#xff1a;当actuator端点设置了context-path之后&#xff0c;turbine如何聚合数据&#xff1f;首先&#xff0c;我们要知道actuator端点设置了context-path是什么意思&#xff1f;也就是说&#xff0c;此时spring boot actuator的端…