织梦cms怎么做双语网站漳州 网站建设公司
web/
2025/10/7 4:46:28/
文章来源:
织梦cms怎么做双语网站,漳州 网站建设公司,长春火车站高清图片,广告联盟没有网站怎么做文 | 天于刀刀犹记 2018 年底谷歌开源 BERT 后#xff0c;一大批基于 Attention 机制 Transformer 结构的大模型横空出世。XLNet、MPNet、ERNIE#xff0c;NLP 任务彻底迈入大规模语料训练 fintune 的时代。之前一段时间爆火的 prompt 概念也离不开大模型中最基本的预训练 M… 文 | 天于刀刀犹记 2018 年底谷歌开源 BERT 后一大批基于 Attention 机制 Transformer 结构的大模型横空出世。XLNet、MPNet、ERNIENLP 任务彻底迈入大规模语料训练 fintune 的时代。之前一段时间爆火的 prompt 概念也离不开大模型中最基本的预训练 MLM 任务。经过了多年的发展不知不觉中大模型的训练逐渐变成了土豪专属。随着大模型的不断刷榜相应的大模型参数数量也在疯狂变大令人咋舌。无形装逼最为致命但正如上期报道的前谷歌员工离开 Google AI 后质疑的那样海量资源无脑砸出的大模型真的会一直那么香吗 目前一群来自 NYU 的研究员甚至在全网公开发起百万悬赏征集大模型反规模效应的案例 (Inverse Scaling Prize) [1] 先来简单了解下背景历史。所谓的 Inverse Scaling 即大名鼎鼎的 Scaling Law [2] 的反例该定律由 OpenAI 于 2020 年初提出主要贡献是通过实验证明向神经网络输入的数据越多这些网络的表现就越好。其中该论文中经典的八大结论让小编刀刀印象深刻强烈推荐去看一看他的实验图表模型架构不重要重要的是模型参数 N 训练数据 D 和计算量 C N, D, C 和 loss 之间存在线性关系过拟合 增加模型参数或是扩大数据集即可避免大模型的训练时长是可预测的大模型 few-shot 表现更好大模型的表现总是好于或不差于小模型算力有限时有策略地训练大模型是一步妙手可通过计算得到一个优化的 batch size 使其收敛。基于这篇文章提供的理论依据很多大团队在“更多数据更广领域”的道路上一脚油门踩到底数据军备、算力军备竞赛打得如火如荼。而另一边广大小公司空有一堆待赋能的 AI 场景却只能眼巴巴地在看着巨头烧钱自己根本玩不起这个越来越昂贵的玩具。xx平台云训练云部署服务广告位招租长期有效时间来到了 2022 年被爆炒了两年的“唯数据论”“唯参数论”渐渐开始被质疑尤其是在对话生成领域中老生常谈的“机器偏见”问题依旧存在并且实践证明这并不是简单地堆砌数据和资源就能解决的。例如基于 GPT-3 的聊天机器人 Replika 曾表示新冠病毒是比尔盖茨发明的新冠病毒疫苗的效果并不好。本次 Inverse Scaling Prize 的主办单位 Anthropic 正是看到了这个问题因此他们设置了总计25万美金的奖金折合约168万元人民币去寻找哪些任务能证明 Scaling Law 并不是黄金定律从而定位到一些当下大模型预训练中的一些问题。本次比赛第一轮投稿截止时间为 2022 年 8 月 27 日想要凑个热闹的同学可以抓紧去他们主页上看看啦 [3][4]。消息一出在 reddit 原贴下方引起一片网友的热烈讨论有化学医药的网友表示大模型的确在他的小样本数据集上表现较差非常容易过拟合。他甚至一度怀疑是不是因为化学太难了以至于基于人类的语言模型难以学习但是主办方表示这也许也可能是因为训练数据太少而导致的。还有网友提问他手头的项目里 word2vec 要比 BERT 做词嵌入 word embedding 效果好很多这是否符合要求呢其实这也不算数。只要这位网友认真了解过 Scaling Law 就能知道文中讨论的参数不包含 embedding即原文中的模型参数都指代 non-embedding parameters。面对着巨额奖金的诱惑有的网友开始动起了歪脑筋。例如有网友就提出不如咱们直接设计一个新的问答任务任务目标就是“答非所问”。那么在这种情况下大模型的表现理所应当会比小模型要好从而在 loss 的计算上得到一个更“差”的表现。其实这想法和小编刀刀的一个“杠精机器人”项目有点雷同同样是扭曲一个正常对话过程中的目标。但是和刀刀实践后得到的结论不同在当时的项目中大模型在少量样本 finetune 后依旧比小模型更能抬杠。因此小编觉得想要赢得奖金你不但需要设计一个有意义的实际问题而且需要构造或者提供一部分数据去支持你发现 Inverse Scaling 。即随着模型的增大 loss 也同样增大的现象听着很复杂别担心主办团队甚至为了准备了无代码版本的 GPT-3 Colab 资源 [5]无需任何代码模型基础对其他从业者十分友好同时他们也详细描绘了相关任务的评估标准其 Rubric 之规范程度简直让人梦回期末大作业。他山之石可以攻玉。也许一些跨领域学科的业务需求可以为目前人工智能领域中的大模型困境提供意料之外的破局点。那么事不宜迟也请各位在围观之余多多转发评论。说不定最终能斩获大奖的就是各位朋友圈中的大佬呢后台回复关键词【入群】加入卖萌屋NLP、CV、搜推广与求职讨论群 [1] Inverse Scaling Prize (Reddit). https://www.reddit.com/r/MachineLearning/comments/vm2sti/n_inverse_scaling_prize_250k_in_prizes_for/[2] Scaling Laws for Neural Language Models. https://arxiv.org/abs/2001.08361[3] Inverse Scaling Prize (Github). https://github.com/inverse-scaling/prize[4] Inverse Scaling Prize (Slack). https://join.slack.com/t/inverse-scaling-prize/shared_invite/zt-1bxdxqtds-3CCbPLkaZH0UqIP9Bg2P~g[5] Inverse Scaling GPT-3 Colab. https://colab.research.google.com/drive/1SGmUh0NbqSrRkWRUcmjg8BS5eU5qvJ0Y#scrollTozoaYc0nsfOIC
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/88286.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!