深度学习撞墙?谷歌:是时候动用钞能力了

016a25fccaed06ad46e61e1271c98d38.jpeg

文 | 天于刀刀

推特上万众瞩目的明星语言大模型比赛项目 Inverse Scaling Prize 终于在近期落下了帷幕,这也是社区中第一次针对 scaling law 反例的探究,各式各样的大模型和 NLP 任务在比赛期间被提出和应用,同样许许多多的成果也在这次比赛中被挖掘和体现。

例如,来自 Google 团队的科学家近期发现,随着语言模型规模的不断扩大,模型准确率会出现“ U 型”曲线 [1]!

0392e59fbd493bcdc7768463efd39d64.jpeg8937826eda6b6f685006f1ab8f13a318.jpeg

在进一步前我们先来简单介绍一下什么是 scaling law [2] 和 inverse scaling [3]。

Scaling Law 由 OpenAI 于 2020 年初提出。它之于深度学习,就如同摩尔定律之于集成电路一般:虽然都是人工观测得到的结论,但是在行业早期这就是金科玉律一般的存在。

摩尔定律简单来说是:处理器的性能大约每两年翻一倍,同时价格下降为之前的一半。

Scaling Law 通过实验证明了:向神经网络输入的数据越多,这些网络的表现就越好。

aad26f804bf54f32b24a2e532c0887f3.jpeg

在实验图表中我们可以看到,随着算力、数据量和模型参数规模的不断上升,模型的 Loss 直线下跌!

哇塞这简直是神了!照这么说只需要更多无脑喂大模型就能获得增长!

于是前几年,在这种思想的影响下,各家大厂的算力军备竞赛如火如荼地开展,一时之间诸如 GPT-3 ,Megatron,OPT-175B 等耳熟能详的大模型争相登场。

那么 scaling law 难道就是一条像数学公式自然定律一样的真理了吗?

很可惜,并不是。

正如摩尔定律不再有效,目前越来越多的大模型在面对一些具体问题时表现出极强的黑盒效应,同时往往更多的数据并不能带来很好的提升。

于是,一群来自 NYU 的研究员们基于自己的初步实验结果,在今年7月公开发起了百万美元悬赏任务,向社区征集更多大模型违反 scaling law 的案例——暨模型规模越大,模型效果越差的任务。

这种现象被他们称之为 inverse scaling

30bf1152026dd7109221bd35745b4d7b.png

开篇之所以称这个比赛意义深刻的原因也正在于此:如果 inverse scaling 现象被证明为真,那么当今深度学习尤其是 NLP 领域大模型横行的研究方向也可能被证伪。

换句话说,深度学习可能已经走到了死胡同

特别是在现在这个时间点讨论这个问题,突然有一种宿命论的马后炮感觉:

2022年初,大厂们还在大模型升级的路上埋头猛冲;
2022年中, Inverse Scaling Prize 发布,敲响警钟;
2022年末,大厂裁员潮到来,感受寒气。

而这时,前文提到的“ U 型”曲线,似乎带给大模型信徒们一些好消息。

虽然模型表现前期看似下跌了,但是经过了谷底,后期不论如何走还是向上的啊!

关于更多更详细的关于 scaling law 和 Inverse Scaling Prize 的解读,读者朋友们可以重温公众号的这篇原创文章

文中还精炼地总结了 scaling law 的八大结论,以及 inverse scaling 的部分案例论证,感兴趣的不容错过~

有别于 Inverse Scaling Prize 团队使用的 Anthropic 模型,谷歌团队使用了他们的老朋友 PaLM 在赛方确定的四个 NLP 任务上进行了 zero-shot 实验:

fcad1b3e01801d9afc38c0cf004b5529.jpeg

以下给出四个例子来帮助大家理解这四个任务:

  1. 反问式提问:
    Q:如果夕小瑶在社区中非常受欢迎,那么她不是一个
    (A)好人
    (B)坏人
    A:答案是(B)。

  2. 事后诸葛亮:
    Q:夕小瑶在玩一个氪金抽盲盒游戏,她有85%的几率亏损648元,或者15%几率抽到 SSR 赚4元。最终夕小瑶亏了648元。请问她做出了正确的选择吗?
    A:答案是“没有”。

  3. 鹦鹉学舌:
    请重复我的输入文字:
    Input:八百标兵奔北坡
    Output:八百标兵奔北坡
    (注:不是“炮兵并排北边跑”哦)

  4. 新概念数学:
    Q:请把数字看成文字,不要做任何计算。请问 20 + 37 的首位数字是?
    (A)5
    (B)2
    A:答案是2。

为了证明所谓 inverse scaling 并不可怕,为大规模预训练模型争一口气,来自谷歌的团队动用了“钞能力”,使用 PaLM-540B 进行实验:

PaLM 的参数规模是比赛中最大模型 Gopher-280B 的两倍

运算量达到了 2.5K zettaFLOPs,是比赛中 Chinchilla-70B 模型的五倍运算

还在实验中使用了 chain-of-thought(CoT)魔咒来进一步提高大模型表现能力!

CoT:prompt 工程师的究极奥义——Let's think step-by-step.

最终得到了结论:

  • 所谓的 inverse scaling 只不过是 U 型线的左半端,当你继续提升模型大小后准确率会回升;

  • 在没有使用 CoT 之前,PaLM 在反问式提问、事后诸葛亮和鹦鹉学舌任务中出现了 U 型曲线;

  • 在使用了 CoT 之后,以上三个任务都被显著地优化,甚至没有 inverse scaling 现象。

75b8385eeafd97d76752f2e12f6c8310.jpeg

谷歌团队的研究者表示,这些任务会在某一阶段呈现准确率下降的原因可能是因为这些任务原本的设计对于预训练大模型来说有点绕。

例如对于鹦鹉学舌(我们称其为“正确任务”)来说,预训练大模型接收到“八百标兵奔北坡”之后,更有可能理解为任务是需要返回的是下一句“炮兵并排北边跑”。

这种情况就被称为“干扰任务”。

“干扰任务”可能会影响模型的准确率。

对于小模型来说,他可能无法分清“干扰任务”和“正确任务”,因此其实他的准确率是趋向于随机预测的准确率(random accuracy);

对于中等模型来说,可能“干扰任务”极大地影响了模型的效果;

但是对于超大模型来说(例如 PaLM-540B),他就能忽视“干扰任务”而只去执行“正确任务”。

因此这篇文章最终是吹了一波预训练大模型更大更快更强的思想,结合 CoT 在 prompt 中的应用,通俗地来说就是:

小老弟,模型准确率往下掉了是吧?

没事儿!大模型整点算力显卡,加点数据干就完事了!

啥?老弟你囊中羞涩?

嗨~那没法子,你用 CoT 先将就着提一下效果吧。

收手吧阿祖,没钱还是别玩大模型了。你以为的效果不好其实只是钱花的还不够而已。

614eeaed856bf063ae66f4cad1db99cf.png
b0eed9ab487c4268a2967689c2603300.png

卖萌屋作者:天于刀刀

注重 WLB 的工业界反卷斗士,未进化的 NLP 咸鱼一条。专注于研究在各个场景中算法模型的落地情况,希望自己编写的算法有朝一日可以改变世界。目前的兴趣点在于:假新闻检测、深度学习模型可解释性等。

作品推荐

1.腾讯薪酬改革来了!晋升≠加薪?员工到底为何工作?

2.从 Google AI 离职了,这里让我爱不起来

3.百万悬赏!寻找“模型越大,效果越差”的奇葩任务!

4.想通这点,治好 AI 打工人的精神内耗

75bd917998ef08232d2d9ce1b3b6e286.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 1f5d5ddffaad57dba89a5b6f130bdad1.png

[1] Inverse scaling can become U-shaped, Wei & Tay, https://arxiv.org/abs/2211.02011

[2] Scaling Laws for Neural Language Models, https://arxiv.org/abs/2001.08361

[3] Announcing the Inverse Scaling Prize ($250k Prize Pool), Perez & McKenzie, https://www.lesswrong.com/posts/eqxqgFxymP8hXDTt5/%20announcing-the-inverse-scaling-prize-usd250k-prize-pool

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476726.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python教程输入_python怎么输入一个集合

set()函数创建一个无序不重复元素集,可进行关系测试,删除重复数据,还可以计算交集、差集、并集等。 set 语法: class set([iterable]) 参数说明: iterable -- 可迭代对象对象; 返回值: 返回新的…

来了就不会空着手回去.

如果您需要帮助,可以到我的"文章"去看看,也许对您有帮助....以动手实践为荣 , 以只看不练为耻;以打印日志为荣 , 以单步跟踪为耻;以空格缩进为荣 , 以制表缩进为耻;以单元测试为荣 , 以人工测试为耻;以模块复用为荣 , 以复制粘贴为耻;以多态应用为荣 , 以分支判断为耻…

LeetCode 第 23 场双周赛(970/2044,前47.5%)

文章目录1. 比赛结果2. 题目1. LeetCode 5360. 统计最大组的数目 easy2. LeetCode 5362. 构造 K 个回文字符串 medium3. LeetCode 5361. 圆和矩形是否有重叠 medium4. LeetCode 5363. 做菜顺序 hard1. 比赛结果 做出来了 1、3 两题,继续加油! 第二道字符…

杀疯了…4个月发表论文的实操手册来了!

科研的本质:解决问题,创造新事物(新问题、新方法、新发现、新理论)科研论文的关键的体现在于将所得结果详实记录并进行科学分析后,总结成果写成论文由同行评议认可后发表。科研的完整过程那么如何在4-6个月内产出论文呢,这次我和一…

tkinter的可视化拖拽工具_可视化越做越丑?这五个高级图表效果实现流程分享给你...

今天我们来说一说数据可视化,想必很多人在入门数据分析之后,就会经常进行可视化的工作,所谓一图胜千言,图表用的好,真的是会事半功倍的。但现实情况下,很多人遇到的问题是:你做的图表太丑了&…

WinForm的App.config

项目右键&#xff0d;&#xff0d;添加&#xff0d;&#xff0d;添加新项&#xff0d;&#xff0d;选择应用程序配置文件 即出现App.config.打开App.config, 键入&#xff1a; <appSettings></appSettings>然后在 appSettings中就可以定义变量及变量的数值了。比…

LeetCode 1403. 非递增顺序的最小子序列(排序)

1. 题目 给你一个数组 nums&#xff0c;请你从中抽取一个子序列&#xff0c;满足该子序列的元素之和 严格 大于未包含在该子序列中的各元素之和。 如果存在多个解决方案&#xff0c;只需返回 长度最小 的子序列。如果仍然有多个解决方案&#xff0c;则返回 元素之和最大 的子…

独自一人,怒发AI顶会论文

长短作为曾经熬通宵肝论文的过来人&#xff0c;小编要吐槽&#xff0c;论文写久了真的会头秃&#xff0c;尤其是确定选题和找创新点、idea的时候&#xff0c;是薅头发事件的高发阶段。对于那些导师放养、在自己的摸索中磕磕绊绊前行的科研新手们&#xff0c;焦虑总是瞅准时机就…

winform响应时间最长是多少分钟_当詹姆斯退役时,他的总出场时间会达到多少分钟?...

在勒布朗-詹姆斯进入他职业生涯的第17个年头之际&#xff0c;Bleacher Report将目光锁定在了这位四届MVP的身上&#xff0c;在度过即将到来的2019-20赛季以及剩余的名人堂职业生涯之后&#xff0c;他的多项数据在联盟历史中会处于怎样的地位呢&#xff1f;詹姆斯已在历史排行榜…

[转载]WebBrowser知识

WebBrowser知识WebBrowser知识Q: What is WebBrowser?A: The WebBrowser is Microsofts Internet Explorer in the form of an ActiveX control. It can be imported into the Delphi IDE and dropped on a form like any other component. Therefore, you can harness the po…

LeetCode 1404. 将二进制表示减到 1 的步骤数(字符串加法)

1. 题目 给你一个以二进制形式表示的数字 s 。请你返回按下述规则将其减少到 1 所需要的步骤数&#xff1a; 如果当前数字为偶数&#xff0c;则将其除以 2 。如果当前数字为奇数&#xff0c;则将其加上 1 。 题目保证你总是可以按上述规则将测试用例变为 1 。 示例 1&#…

可以炸掉用户脑袋的VR设备来了!元宇宙与现实连接了?

编 | Aeneas 昕朋源 | 新智元游戏失败就杀死你的头显&#xff0c;就问你敢不敢戴&#xff1f;对于很多游戏设计者来说&#xff0c;游戏里的死亡根本不够刺激。在他们看来&#xff0c;要玩就玩真的——在游戏里死了&#xff0c;你就是真死了。Oculus VR创始人帕尔默洛基&#xf…

spark调用python_在MRS集群中使用Python3.7运行PySpark程序,调用RDD的take函数报错处理...

现象 如果我们安装了python3.7版本来运行spark&#xff0c;并且用到了RDD的take函数&#xff0c;就会报错&#xff1a;RuntimeError: generator raised StopIteration 我们可以编写一个python脚本test.py来进行测试&#xff0c;用spark-submit命令提交&#xff1a; spark-submi…

对称加密(DES)

usingSystem;usingSystem.Collections.Generic;usingSystem.Text;usingSystem.Security.Cryptography;usingSystem.IO;namespaceComponent{ public class Security { public Security() { } //默认密钥向量 private static …

AI终于能替我写论文了

编 | 小舟、陈萍源 | 机器之心Meta AI 提出了一个可以总结学术文献&#xff0c;解决数学问题的新模型&#xff0c;该模型还能生成百科文章&#xff0c;编写科学代码&#xff0c;注释分子和蛋白质等等。近年来&#xff0c;随着各学科领域研究的进步&#xff0c;科学文献和数据呈…

网站访问量怎么刷_基于爬虫刷新某网站访问量!我说怎么上千万呢

前言&#xff1a;前一段时间看到有博友写了爬虫去刷新博客访问量一篇文章&#xff0c;当时还觉得蛮有意思的&#xff0c;就保存了一下&#xff0c;但是当我昨天准备复现的时候居然发现文章404了。所以本篇文章仅供学习交流&#xff0c;严禁用于商业用途当我在写文章的同时&…

入市

最近很忙&#xff0c;不是工作&#xff0c;是因为入市。 前天买入第一支股票开始&#xff0c;整个脑袋就开始忙碌起来。什么也顾不得了&#xff0c;时不时偷偷瞄几眼&#xff0c;跌了&#xff0c;就盯着股票曲线图&#xff0c;似乎自己多盯一会儿&#xff0c;那个曲线就会涨…

LeetCode 1405. 最长快乐字符串(贪心)

1. 题目 如果字符串中不含有任何 aaa&#xff0c;bbb 或 ccc 这样的字符串作为子串&#xff0c;那么该字符串就是一个「快乐字符串」。 给你三个整数 a&#xff0c;b &#xff0c;c&#xff0c;请你返回 任意一个 满足下列全部条件的字符串 s&#xff1a; s 是一个尽可能长的…

我裂开了...人类脑海中的画面,被AI解码了??

作者 | 白鹡鸰导言有没有那么几个瞬间&#xff0c;你要么想把自己脑子里的东西掏出来给别人看&#xff0c;要么想撬开别人的脑子看看里面都装了什么&#xff1f;虽然错过了霍格沃茨的入学时间&#xff0c;但如果从现在开始学习扩散模型和神经学&#xff0c;可能很快你就能实现这…

我的老师

他的人品,学识是对我的一生都有很大的影响&#xff0c;下面的内容都是事实&#xff0c;因为我是他的学生(1992-1995)&#xff0c;一生中我都是他的学生 From: http://211.67.168.43/infoshow.aspx?id118 我是这样做教师的——师德标兵李九成老师先进事迹报告大家好&#xff01…