百万悬赏!寻找“模型越大,效果越差”的奇葩任务!

c0393d1bdd375b97c539d8e6a3ffccc3.png

文 | 天于刀刀

犹记 2018 年底谷歌开源 BERT 后,一大批基于 Attention 机制 Transformer 结构的大模型横空出世。

XLNet、MPNet、ERNIE,NLP 任务彻底迈入大规模语料训练 + fintune 的时代。之前一段时间爆火的 prompt 概念也离不开大模型中最基本的预训练 MLM 任务。

经过了多年的发展,不知不觉中,大模型的训练逐渐变成了土豪专属。随着大模型的不断刷榜,相应的大模型参数数量也在疯狂变大,令人咋舌。(无形装逼最为致命)

但正如上期报道的前谷歌员工离开 Google AI 后质疑的那样,海量资源无脑砸出的大模型真的会一直那么香吗? 目前一群来自 NYU 的研究员甚至在全网公开发起百万悬赏,征集大模型反规模效应的案例 (Inverse Scaling Prize) [1] !

307af167fbb1de973346c3b525c5fd85.png

先来简单了解下背景历史。所谓的 Inverse Scaling 即大名鼎鼎的 Scaling Law [2] 的反例,该定律由 OpenAI 于 2020 年初提出,主要贡献是通过实验证明:向神经网络输入的数据越多,这些网络的表现就越好。

其中该论文中经典的八大结论让小编刀刀印象深刻(强烈推荐去看一看他的实验图表):

  1. 模型架构不重要,重要的是模型参数 N训练数据 D计算量 C

  2. N, D, C 和 loss 之间存在线性关系

  3. 过拟合? 增加模型参数或是扩大数据集即可避免;

  4. 大模型的训练时长是可预测的

  5. 大模型 few-shot 表现更好

  6. 大模型的表现总是好于或不差于小模型;

  7. 算力有限时,有策略地训练大模型是一步妙手;

  8. 可通过计算得到一个优化的 batch size 使其收敛。

842dc882ae5843dc2a1350044fdc6212.png

基于这篇文章提供的理论依据,很多大团队在“更多数据,更广领域”的道路上一脚油门踩到底,数据军备、算力军备竞赛打得如火如荼。而另一边,广大小公司空有一堆待赋能的 AI 场景,却只能眼巴巴地在看着巨头烧钱,自己根本玩不起这个越来越昂贵的玩具。

(xx平台云训练云部署服务广告位招租,长期有效)

71a2a60b060f398bd40fcdcd39abab96.jpeg

时间来到了 2022 年,被爆炒了两年的“唯数据论”“唯参数论”渐渐开始被质疑,尤其是在对话生成领域中,老生常谈的“机器偏见”问题依旧存在,并且实践证明这并不是简单地堆砌数据和资源就能解决的。例如,基于 GPT-3 的聊天机器人 Replika 曾表示,新冠病毒是比尔盖茨发明的,新冠病毒疫苗的效果并不好。

本次 Inverse Scaling Prize 的主办单位 Anthropic 正是看到了这个问题,因此他们设置了总计25万美金的奖金(折合约168万元人民币),去寻找哪些任务能证明 Scaling Law 并不是黄金定律,从而定位到一些当下大模型预训练中的一些问题。

本次比赛第一轮投稿截止时间为 2022 年 8 月 27 日,想要凑个热闹的同学可以抓紧去他们主页上看看啦 [3][4]。

消息一出,在 reddit 原贴下方引起一片网友的热烈讨论:

有化学医药的网友表示,大模型的确在他的小样本数据集上表现较差,非常容易过拟合。他甚至一度怀疑是不是因为化学太难了以至于基于人类的语言模型难以学习,但是主办方表示这也许也可能是因为训练数据太少而导致的。

还有网友提问,他手头的项目里 word2vec 要比 BERT 做词嵌入 word embedding 效果好很多,这是否符合要求呢?

其实这也不算数。只要这位网友认真了解过 Scaling Law 就能知道,文中讨论的参数不包含 embedding,即原文中的模型参数都指代 non-embedding parameters。

面对着巨额奖金的诱惑,有的网友开始动起了歪脑筋。例如有网友就提出不如咱们直接设计一个新的问答任务,任务目标就是“答非所问”。那么在这种情况下,大模型的表现理所应当会比小模型要好,从而在 loss 的计算上得到一个更“差”的表现。

其实这想法和小编刀刀的一个“杠精机器人”项目有点雷同,同样是扭曲一个正常对话过程中的目标。但是和刀刀实践后得到的结论不同,在当时的项目中大模型在少量样本 finetune 后依旧比小模型更能抬杠。

f3a096c768e6535b8187646c851dfa82.jpeg

因此小编觉得,想要赢得奖金你不但需要设计一个有意义的实际问题,而且需要构造或者提供一部分数据去支持你发现 Inverse Scaling 。(即随着模型的增大 loss 也同样增大的现象)

听着很复杂?别担心,主办团队甚至为了准备了无代码版本的 GPT-3 Colab 资源 [5]!无需任何代码模型基础,对其他从业者十分友好!同时他们也详细描绘了相关任务的评估标准,其 Rubric 之规范程度简直让人梦回期末大作业。

他山之石可以攻玉。也许一些跨领域学科的业务需求可以为目前人工智能领域中的大模型困境提供意料之外的破局点。

那么事不宜迟,也请各位在围观之余多多转发评论。

说不定最终能斩获大奖的,就是各位朋友圈中的大佬呢?

7ec4fc13e49071cc4fbb7f2b2acddf4f.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 d64290aa7cd72c31b45c55cd47ef10ea.png

[1] Inverse Scaling Prize (Reddit). https://www.reddit.com/r/MachineLearning/comments/vm2sti/n_inverse_scaling_prize_250k_in_prizes_for/

[2] Scaling Laws for Neural Language Models.  https://arxiv.org/abs/2001.08361

[3] Inverse Scaling Prize (Github). https://github.com/inverse-scaling/prize

[4] Inverse Scaling Prize (Slack). https://join.slack.com/t/inverse-scaling-prize/shared_invite/zt-1bxdxqtds-3CCbPLkaZH0UqIP9Bg2P~g

[5] Inverse Scaling GPT-3 Colab. https://colab.research.google.com/drive/1SGmUh0NbqSrRkWRUcmjg8BS5eU5qvJ0Y#scrollTo=zoaYc0nsfOIC

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477182.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序员面试金典 - 面试题 02.08. 环路检测(快慢指针)

1. 题目 给定一个有环链表,实现一个算法返回环路的开头节点。 有环链表的定义:在链表中某个节点的next元素指向在它前面出现过的节点,则表明该链表存在环路。 示例 1: 输入:head [3,2,0,-4], pos 1 输出&#xff1…

Batch size 没必要设为2的次方!?

文 | 付瑶最近刷到一个话题很有趣,搬来和大家一起讨论下:“batch-size 一定要大小为2的幂吗?不这样设置会有啥差别吗?”发帖人认为大家都进入一个误区。坚持选择batch-size的大小为2的幂次数是因为曾经被告知从计算的角度是对训练效率有益的。但是这个“…

ICDAR 2019论文:自然场景文字定位技术详解

自然场景文字定位是文字识别中非常重要的一部分。与通用的物体检测相比,文字定位更具挑战性,文字在长宽比、尺度和方向上有更大范围的变化。针对这些问题,本文介绍一种融合文字片段及金字塔网络的场景文字定位方法。该方法将特征金字塔机制应…

程序员面试金典 - 面试题 10.01. 合并排序的数组

1. 题目 给定两个排序后的数组 A 和 B,其中 A 的末端有足够的缓冲空间容纳 B。 编写一个方法,将 B 合并入 A 并排序。 初始化 A 和 B 的元素数量分别为 m 和 n。 示例: 输入: A [1,2,3,0,0,0], m 3 B [2,5,6], n 3输出: [1,2,2,3,5,6]来源&…

LeCun论文被指「洗稿」? LSTM之父发文怒怼:抄我的还标原创

编 | 好困 Joey David源 | 新智元LSTM之父、暴脾气大爷Jrgen Schmidhuber又开炮了?这回怼的是LeCun,说最近的新论文是炒了自己20多年前的冷饭,只不过换了种说法而已。图灵奖得主Yann Lecun,作为AI界的三巨头之一,他发表…

ESLint 在中大型团队的应用实践

引言 代码规范是软件开发领域经久不衰的话题,几乎所有工程师在开发过程中都会遇到,并或多或少会思考过这一问题。随着前端应用的大型化和复杂化,越来越多的前端工程师和团队开始重视 JavaScript 代码规范。得益于前端开源社区的繁盛&#xff…

程序员面试金典 - 面试题 02.05. 链表求和

1. 题目 给定两个用链表表示的整数,每个节点包含一个数位。 这些数位是反向存放的,也就是个位排在链表首部。 编写函数对这两个整数求和,并用链表形式返回结果。 示例: 输入:(7 -> 1 -> 6) (5 -> 9 ->…

互联网人到最后拼的是体力

文 | 卫夕源 | 卫夕指北互联网人到最后拼的是体力,这么说可能有点绝对。但如果我们将时间线拉长,体力代表的精力绝对是一个人能在互联网领域保持长期竞争力的最重要的因素。至少也是最重要的之一。1.很多互联网人退出了职场竞争,看起来是心力…

谷歌、斯坦福联合发文:我们为什么一定要用大模型?

文 | Harris语言模型已经深刻变革了自然语言处理领域的研究和实践。近年来,大模型在多个领域都取得了重要的突破。它们无需在下游任务上微调,通过合适的指令或者提示就可以取得优异的性能,甚至有时让人为之惊叹。例如,GPT-3 [1] 可…

程序员面试金典 - 面试题 02.04. 分割链表

1. 题目 编写程序以 x 为基准分割链表,使得所有小于 x 的节点排在大于或等于 x 的节点之前。如果链表中包含 x,x 只需出现在小于 x 的元素之后(如下所示)。分割元素 x 只需处于“右半部分”即可,其不需要被置于左右两部分之间。 示例: 输入…

深度学习在搜索业务中的探索与实践

本文根据美团高级技术专家翟艺涛在2018 QCon全球软件开发大会上的演讲内容整理而成,内容有修改。 引言 2018年12月31日,美团酒店单日入住间夜突破200万,再次创下行业的新纪录,而酒店搜索在其中起到了非常重要的作用。本文会首先介…

京东金融,你到底是坏,还是码农裁多了??

7.12更新:部分基金赎回的钱已经到账小金库了,今日从小金库提现时又提示银行卡已删除,不过这次可以点击重新绑定,重新绑定时会报错“绑定的卡与原卡一致”,流程没法走完。但这时候再退回去却发现“银行卡已删除”的提示没有了。于是…

程序员面试金典 - 面试题 17.14. 最小K个数(快排划分O(n))

1. 题目 设计一个算法&#xff0c;找出数组中最小的k个数。以任意顺序返回这k个数均可。 示例&#xff1a; 输入&#xff1a; arr [1,3,5,7,2,4,6,8], k 4 输出&#xff1a; [1,2,3,4]提示&#xff1a; 0 < len(arr) < 100000 0 < k < min(100000, len(arr))来…

LruCache在美团DSP系统中的应用演进

背景 DSP系统是互联网广告需求方平台&#xff0c;用于承接媒体流量&#xff0c;投放广告。业务特点是并发度高&#xff0c;平均响应低&#xff08;百毫秒&#xff09;。 为了能够有效提高DSP系统的性能&#xff0c;美团平台引入了一种带有清退机制的缓存结构LruCache(Least Rec…

程序员面试金典 - 面试题 17.16. 理发师(动态规划DP)

1. 题目 一个有名的理发师会收到源源不断的预约请求&#xff0c;每个预约都可以选择接或不接。在每次预约服务之间要有休息时间&#xff0c;因此她不能接受相邻的预约。给定一个预约请求序列&#xff0c;替理发师找到最优的预约集合&#xff08;总预约时间最长&#xff09;&am…

关于NLP自监督学习,面试时被问崩溃了!

不要错过文末福利❤扫盲自监督无监督&#xff08;有不少同学还答不上来自监督和无监督真正的区别&#xff0c;我不是针对谁。&#xff09;无监督学习&#xff1a;无监督学习不依赖任何标签值&#xff0c;通过对数据内在特征的挖掘&#xff0c;找到样本间的关系&#xff0c;比如…

智能支付稳定性测试实战

本文根据美团高级测试开发工程师勋伟在美团第43期技术沙龙“美团金融千万级交易系统质量保障之路”的演讲整理而成。主要介绍了美团智能支付业务在稳定性方向遇到的挑战&#xff0c;并重点介绍QA在稳定性测试中的一些方法与实践。 背景 美团支付承载了美团全部的交易流量&#…

程序员面试金典 - 面试题 16.01. 交换数字(位运算swap)

1. 题目 编写一个函数&#xff0c;不用临时变量&#xff0c;直接交换numbers [a, b]中a与b的值。 示例&#xff1a; 输入: numbers [1,2] 输出: [2,1]提示&#xff1a; numbers.length 2来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 链接&#xff1a;https://le…

阿里巴巴达摩院对话团队招聘研究实习生!

招聘贴投放请联系微信xixiaoyao-1阿里巴巴-达摩院-对话智能团队正在招募研究实习生&#xff01;团队介绍达摩院对话智能&#xff08;Conversational AI&#xff09;团队成立于2014年&#xff0c;专注于人机对话前沿研究和大规模应用&#xff0c;打造了任务型对话开发平台 Dialo…

人物志 | 技术十年:美团第一位前端工程师潘魏增

导读 潘魏增&#xff0c;2006年毕业于南开大学电子系&#xff0c;2008年加入早期饭否团队。美团第一位前端工程师&#xff0c;现在是X项目组终端研发部的负责人。处女座&#xff0c;INTJ&#xff0c;喜欢Linux和Vim&#xff0c;崇尚开源&#xff0c;相信开源可以让世界变得更美…