全球1000+研究员在Twitter直播训练超大模型??

7bb4029742971e6192e5119a51909005.png

文 | 王思若

将视角转换到2020年,OpenAI发布了拥有1750亿参数量的GPT-3, 在阅读理解、语言翻译、问答等多种任务展现了令人惊艳的效果,算法+工程二者结合展现了大模型的“暴力美学”,也同时开启了千亿、万亿参数模型的 “军备竞赛”

从模型框架到并行架构,从NLP,CV再到多模态,大型语言模型(LLM)逐渐成为了少数几个公司和研究院竞相争抢的赛道。

之后我们见证了从DeepMind的2800亿参数Gopher到NVIDIA和微软联合发布的5300亿参数的Megatron-Turing,从Google的1.6万亿参数的Switch Transformer再到智源的1.75万亿参数的悟道2.0。

尽管有些模型开放了API接口或参数,但详尽的技术细节却未公之于众,导致难以全然复现。

例如,OpenAI拒绝公布GPT-3模型参数,DeepMind对于让蛋白质结构预测走上新阶段的AlphaFold2也只是公布了推理代码。学界和社区呼唤开源,但是我们也无法苛求这些以盈利为立足之本的企业能够全然公开其技术研究成果。

这似乎是一个关于巴别塔的困境——人类联合起来兴建希望能通往天堂的高塔,但是上帝为了阻止人类让人类说不同语言,互相之间不能沟通,进而导致计划失败。

在这些公司试图建立起自己的技术壁垒的同时,也涌现了一批人去尝试打破它们。Meta复现并完全开源了GPT-3,哥伦比亚大学全流程复现并开源了AlphaFold2。

今天我们要介绍的主角,也是这批力量中不可忽视的一个组织——BigScience一个包容、开放、协作共享的大型语言模型(LLM)社区,围绕研究和创建超大型语言模型的开放式协作研讨会,由HuggingFace、GENCI和IDRIS发起的开放式合作,汇集了全球 1000 多名研究人员。

BigScience既不是实体组织,也不是互联网企业,有人说这是一群希望构造更加开源、开放社区的学者汇聚形成的“星星之火”。接下来,笔者将阐述这群人的故事,或许,从他们开始AI社区的规则将迎来转变。

e3061c054b5aa6c498a94aa47b522118.pngBigScience的故事f70007553211a2d85bff6f6dee36fc3f.png

4dbad57efedd1165183231b624bf20e3.png
  • 这个故事开始于21年1月,Hugging Face创办者之一的Thomas Wolf、来自超级计算机制造商GENCI的Stéphane Requena和来自运营超级计算机的法国公共研究机构IDRIS的Pierre-François Lavallée对人工智能进行了探讨,并一致认为工业界应该和学术界合作构建开源、开放的通用型研究工具。

  • 21年1月-4月,Hugging Face联合法国学术社区成立了BigScience🌸,并得到了500万GPU时的资助。

  • 21年7月-8月,训练完成了GPT-style架构的多语言预训练语言模型,其在13种语言构建的4000亿tokens组成的语料库中进行训练,模型参数为13亿。

  • 21年底-22年初,尝试训练千亿参数的多语言预训练语言生成模型,并进行了一系列参数量、数据集、模型架构等方面的探索。期间遇到了很多难题,例如1040亿参数的模型训练不收敛,反而1760亿参数的模型训练很稳定以及数据质量不达标。

f663b5dac08880f65aa773eb98db90d9.png
  • 22年3月11日,BigScience正式在384张80GB显存的A100上公开训练了1760亿参数量的多语言预训练预训练语言模型 BLOOM (BigScience Language Open-science Open-access Multilingual) ,采取了类似与GPT的Decoder架构。这一项目由30个工作组参与,其中涉及到1000多人报名以及数百名积极参与者。模型预计训练3-4个月,训练数据包括46种语言,训练期间loss和梯度变化等日志都通过tensorboard的形式在huggingface网站中实时展现了出来,任何人都可以实时跟踪模型训练!

bffa021c0c251cd11cb298512edb2c53.png

为了让小伙伴不错过大模型BLOOM训练成长的每一天,更是为其开通了twitter账号,从此开启了每日汇报训练进度的日常。从0%开始,到99%、100%,经过111天,模型终于训练完毕。不过,BigScience说让子弹再飞一会,模型会继续训练几天,当然每日的推文就变成了训练进度101%、102%... ... 马上小伙伴们就可以亲自测试BLOOM大模型的效果啦!

c56c2092715e131b7df2671ba32ff5f3.png

虽然最终模型还没有发布,但该模型的checkpoints已经展现了非常酷的效果,可以协助编程例如生成递归函数,纠正语法错误。每一个人都将会有无限的自由去探索大模型未知的潜力,这会是属于每一个人的一场大模型的“狂欢”。

958edf3978ae1c2b44c1187c4a666927.png

aa3418cf5484772c3173d62faa2784d8.png或将成为AI社区的破局者99f91e75dbbc3490212f0739bca4065c.png

人工智能对社会产生了根本性的影响,特别是大规模预训练语言模型的研发与应用加速了这种影响的深度和广度,但是大模型的核心技术往往被少数的科技巨头牢牢把控,受限于财务、法律或道德原因,这些资源丰富的研究团体或公司对于模型细节并不十分开放,因此社区对这种变革性技术在构建方式、功能以及进一步改进方面缺乏很好的理解,与此同时在环境、伦理和社会等方面的进一步探索也面临着巨大的束缚。

开放的科学合作才会更加促进学术研究并最终造福整个学术界。

我们看到BigScience成为了人工智能时代新的破局者,BigScience是全球数百名研究人员组成的开放科学项目,这些研究人员作为志愿者秉持着开放、多样、包容乃至造福人类的想法参与了BLOOM(BigScience Language Open-science Open-access Multilingual)大模型的构建以及训练过程。只要你感兴趣,提交表格然后加入他们的Slack频道,你就会成为贡献者的一员。

因此,来自世界各地的大量研究人员在其中共同训练大型语言模型(LLM),一切完全公开,任何人都可以参与,所有研究成果都与整个社区共享。

BigScience作为一个跨学科的研讨会,汇聚了人工智能、社会科学、法律、伦理等多种研究领域的学术和工业界的研究人员,集中时间和资源共同实现更大的影响。

BigScience成为AI历史上第一个超过1000多名研究人员参与创建单一模型和数据集的案例,继而,BLOOM也成为目前第一个也是唯一一个在这种规模上创建的完全开源的大型语言模型。

283510f3f4aa6bcafcdee37693dbe9a5.gif

在笔者看来这是一个翻版“石头汤”的故事,每个人都往大锅中加入自己拥有的食材并成功制作了一份美味的汤给大家分享。

BigScience成立了一个特别大的Slack频道:TLDR,并将团队分为多个工作组,包括法律、数据管理、模型管理、模型架构和训练以及模型可视化等。

每个小组都由志愿者主席组成,他们负责组织会议、设定截止日期和确保相关代码和论文写作按时完成。

HuggingFace团队主导,Microsoft DeepSpeed团队和NVIDIA Megatron-LM团队提供了并行训练架构,由核能驱动的超级计算机Jean Zay提供了低碳环保的算力支持... 哇,这将会呈现给AI社区每一个人的绝美的汤!

13c53c2baa39d2e273da614d2470b00d.png一些感想03876b3e9021fd61eeb2ddfdd38b9662.png

进一步,像BigScience一样协作训练并共享大型语言模型是一个相当有趣的尝试,在之前我们看到类似大小的模型在各种大型科技公司中训练并保持私有,这产生了重复的能源消耗并几乎没有实用逻辑。

同样的,我们也看到了以开源著称的HuggingFace更加蓬勃的“野心”,其牵头成立的BigScience无畏的走向了更加开源、开放的时代浪尖。

更为有意思的是,BigScience使用中国儒家道德理论中的“和”作为其道德章程的根基,建立起包容性、多样性、开放性等构成的内在价值观以及透明性、跨学科性等组成的外在价值观。

BigScience要求成员按照其道德章程建立核心价值观,并希望能够进一步出版、传播和普及来促进学术界的价值观。

按照其章程,笔者构画了BigScience设想的蓝图:这里没有宗教、种族、性别等任何形式的歧视并希望每个成员对BigScience有归属感,每个贡献者都肩负着个人责任以及集体责任,既要对社会负责也要对环境负责,多学科交融互通,多语种美美与共。

BigScience作为刚刚燃起的“星星之火”,不管能否燎原,它用全新的合作形式,完全开源、平等包容的价值观让我们看到了人工智能时代不一样的色彩。

或许,未来某一天当回过头来看,我们会惊奇的发现,BigScience和BLOOM成为了AI社区迈入更加开源、开放人工智能新时代的转折点。

7198ab5106a5882f3a3ff42d29ed3d6c.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

eaf99d80d1d3ec5a77c7214a55fb3d77.png

[1] BigScience网站:https://bigscience.huggingface.co/

[2] BigScience Twitter: https://twitter.com/BigscienceW

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477157.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LintCode 1671. 玩游戏(贪心、难)

1. 题目 N 个人在玩游戏,每局游戏有一个裁判和 N-1 个平民玩家。给出一个数组 A, A[i] 代表玩家 i 至少需要成为平民 A[i] 次,返回最少进行游戏的次数。 样例 1: 输入:A [2, 2, 2, 2] 输出:3 解析: A[0] 2表示玩家…

美团点评基于 Flink 的实时数仓建设实践

引言 近些年,企业对数据服务实时化服务的需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景,介绍了美团如何通过 Flink 引擎构建实时数据仓库,从而提供高效、稳健的实时数据服务。此前我们美团技术博客发布过一篇文章《流计算框…

机器翻译做到头了?Meta开源NLLB翻译模型,支持200种语言互译

文 | Alex(凹非寺)源 | 量子位这个翻译模型,不仅支持200语言之间任意两两互译,还是开源的。Meta AI在发布开源大型预训练模型OPT之后,再次发布最新成果NLLB。NLLB的全称为No Language Left Behind,如果套用某著名电影,…

LintCode 1652. 区间异或 II

1. 题目 给定数组 A(下标从0到n-1,n为数组长度),和一个查询列表。 每一项查询包括两个整数 i 和 k。 对于每次查询,计算Ai, A(i  1), ..., A(ik-1)的异或值。结果保存在列表中。 样例1 输入: A [1,2,3,4] and …

美团外卖Android平台化的复用实践

美团外卖平台化复用主要是指多端代码复用,正如美团外卖iOS多端复用的推动、支撑与思考文章所述,多端包含有两层意思:其一是相同业务的多入口,指美团外卖业务需要在美团外卖App(下文简称外卖App)和美团App外…

智源承认论文抄袭,相关责任人已离职!

文 | 金磊Alex(凹非寺)源 | 量子位“2处属于抄袭,4处引用不规范。”“相关责任人均已主动离职。”“大模型研究中心部门重组。”……一篇名为A Roadmap for Big Model、由百人联合完成的综述报告,因涉嫌抄袭在国内外学术圈引发了不小的关注。对此&#x…

LintCode 1689. k求和III(递归)

1. 题目 给出 n 个正整数和整数 k 以及一个目标数字 target. 在 n 个数中找出 k 个奇数 或 k 个偶数 使得和为target,输出方案数 样例 1: 给出 [1,2,3,4], k 2,target 4, 返回 1 输入: [1,2,3,4] 2 4 输出: 1 解释: 只有一个方案:[1,3].样例 2: 给…

美团扫码付小程序的优化实践

短短几年的时间,微信小程序已经从一颗小小的萌芽成长为参天大树,形成了较大规模的开发者生态系统,尤其是在支付、线下垂直领域潜力巨大。 作为领先的生活服务平台,美团的技术团队在小程序领域也进行了很多的探索和实践。像mpvue就…

谈谈算法岗简历优化与面试技巧!

秋招已经开始,许多同学都在为简历和面试发愁。我跟BAT某lab高级算法研究员、担任过多次技术面试官的Sunny师兄聊了聊,跟他请教了简历撰写和面试准备的方法。重磅福利在文末↓Sunny 目前在BAT某lab担任高级算法研究员,有多年的简历筛选和面试经…

LintCode 386. 最多有k个不同字符的最长子字符串(双指针)

1. 题目 给定字符串S,找到最多有k个不同字符的最长子串T。 样例 1: 输入: S "eceba" 并且 k 3 输出: 4 解释: T "eceb"样例 2: 输入: S "WORLD" 并且 k 4 输出: 4 解释: T "WORL" 或 "ORLD"挑战 O(n) 时…

院士发声:科研人也要养家,非升即走只能做短平快的研究

源 | 募格课堂综合自上游新闻、澎湃新闻、百度百科如今,59岁的中国科学院院士马大为,他也感慨科技界的“内卷”,“很多大学和研究单位没有按照科研的规律招PI(Principal Investigator,学术带头人、首席研究员&#xff…

镣铐之舞:美团安全工程师Black Hat USA演讲

背景 2018年8月9日,全球顶级安全会议——Black Hat USA在美国拉斯维加斯的曼德勒海湾会议中心落下了帷幕,这场盛会在全球黑客心中几乎等同于“世界杯”和“奥斯卡”一样的存在。这场一年一度的盛会已经有着21年的悠久历史,也被公认为世界信息…

LintCode 550. 最常使用的K个单词II(自定义set(可修改数据的优先队列) + map)

1. 题目 在实时数据流中找到最常使用的k个单词. 实现TopK类中的三个方法: TopK(k), 构造方法add(word), 增加一个新单词topk(), 得到当前最常使用的k个单词. 样例 1: 输入: TopK(2) add("lint") add("code") add("code") topk() 输…

Pix2Seq:谷歌大脑提出 CV 任务统一接口!

文 | 青豆最近一个大趋势就是将各类任务统一在一个大一统框架下。大规模预训练语言模型已成功打通各类文本任务,使得不同的NLP任务上,都可以用这种统一的sequence生成框架作为基础模型,只需要通过prompt的方式,指导模型生成目标结…

美团针对Redis Rehash机制的探索和实践

背景 Squirrel(松鼠)是美团技术团队基于Redis Cluster打造的缓存系统。经过不断的迭代研发,目前已形成一整套自动化运维体系:涵盖一键运维集群、细粒度的监控、支持自动扩缩容以及热点Key监控等完整的解决方案。同时服务端通过Doc…

剑指Offer - 面试题59 - II. 队列的最大值(deque模拟单调栈)

1. 题目 请定义一个队列并实现函数 max_value 得到队列里的最大值,要求函数max_value、push_back 和 pop_front 的时间复杂度都是O(1)。 若队列为空,pop_front 和 max_value 需要返回 -1 示例 1: 输入: ["MaxQueue","push…

行业现状令人失望,工作之后我又回到UC伯克利读博了

文 | SHREYA SHANKAR编 | 小舟、陈萍源 | 机器之心很多同学在面临读博和工作的选择时会犹豫不决,这篇文章也许能给你一点启发。机器学习领域近来受到大模型的冲击,很多小公司表示难以承担大模型的训练费用。但行业中机器学习工程的发展具体是怎样的&…

前端遇上Go: 静态资源增量更新的新实践

为什么要做增量更新 美团金融的业务在过去的一段时间里发展非常快速。在业务增长的同时,我们也注意到,很多用户的支付环境,其实是在弱网环境中的。 大家知道,前端能够服务用户的前提是 JavaScript 和 CSS 等静态资源能够正确加载。…

剑指Offer - 面试题26. 树的子结构(双重递归)

1. 题目 输入两棵二叉树A和B,判断B是不是A的子结构。(约定空树不是任意一个树的子结构) B是A的子结构, 即 A中有出现和B相同的结构和节点值。 例如: 给定的树 A:3/ \4 5/ \1 2 给定的树 B:4 /1 返回 true,因为 B 与 A 的一…

给1万帧视频做目标分割,显存占用还不到1.4GB | ECCV2022

文 | 明敏 发自 凹非寺源 | 量子位 | 公众号 QbitAI咦,怎么好好的藤原千花,突然变成了“高温红色版”?这大紫手,难道是灭霸在世??如果你以为上面的这些效果只是对物体后期上色了,那还真是被AI给…