计算机科学家证明,为什么更大的神经网络可以做得更好

0ae9c53c9c19c4d01b00df68099a0f2b.png

来源:ScienceAI

编辑:萝卜皮

我们的物种很大程度上归功于对生的拇指。但如果进化给了我们额外的拇指,事情可能不会有太大改善。每只手一个拇指就足够了。

神经网络并非如此,这是执行类人任务的领先人工智能系统。随着他们变得更大,他们已经掌握了更多。这让旁观者大吃一惊。基本的数学结果表明,网络应该只需要这么大,但现代神经网络的规模通常远远超出预测的要求——这种情况被称为过度参数化。

在 12 月在领先会议 NeurIPS 上发表的一篇论文中,微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 为缩放成功背后的奥秘提供了新的解释。他们表明,神经网络必须比传统预期的要大得多,才能避免某些基本问题。这一发现为一个持续了几十年的问题提供了一般性的见解。

972b8e76a25b515fb78c302156b52c2f.png

论文链接:https://arxiv.org/abs/2105.12806

「这是一个非常有趣的数学和理论结果。」瑞士洛桑联邦理工学院的 Lenka Zdeborová 说,「他们以这种非常通用的方式证明了这一点。所以从这个意义上说,它会触及计算机科学的核心。」

对神经网络规模的标准预期来自对它们如何记忆数据的分析。但要了解记忆,我们必须首先了解网络的作用。

神经网络的一项常见任务是识别图像中的对象。为了创建一个可以做到这一点的网络,研究人员首先为其提供许多图像和对象标签,对其进行训练以学习它们之间的相关性。之后,网络将正确识别它已经看到的图像中的对象。换句话说,训练使网络记住数据。更值得注意的是,一旦网络记住了足够多的训练数据,它还能够以不同程度的准确度预测它从未见过的物体的标签。后一个过程称为泛化。

网络的大小决定了它可以记住多少。这可以通过图形来理解。想象一下,将两个数据点放在 xy 平面上。你可以将这些点与由两个参数描述的线连接起来:线的斜率和穿过垂直轴时的高度。如果其他人得到了这条线,以及一个原始数据点的 x 坐标,他们只需查看这条线(或使用参数)就可以计算出相应的 y 坐标。这条线已经记住了这两个数据点。

神经网络做类似的事情。例如,图像由成百上千个值描述——每个像素一个值。这组许多自由值在数学上等价于高维空间中一个点的坐标;坐标的数量称为维度。

一个古老的数学结果表明,要将 n 个数据点与曲线拟合,你需要一个具有 n 个参数的函数。(在前面的示例中,两个点由具有两个参数的曲线描述。)当神经网络在 1980 年代首次成为一股力量时,思考同样的事情是有道理的。它们应该只需要 n 个参数来拟合 n 个数据点——无论数据的维度如何。

「这不再是正在发生的事情。」德克萨斯大学奥斯汀分校的 Alex Dimakis 说,「现在,我们经常创建参数数量超过训练样本数量的神经网络,这意味着必须重写这些书。」

Bubeck 和 Sellke 并没有打算重写任何东西。他们正在研究神经网络通常缺乏的另一种属性,称为稳健性,这是网络处理微小变化的能力。例如,一个不健壮的网络可能已经学会了识别长颈鹿,但它会将一个几乎没有修改过的版本错误地标记为沙鼠。2019 年,当 Bubeck 团队意识到该问题与网络规模有关时,他们正在寻求证明有关该问题的定理。

Bubeck 说:「我们正在研究对抗性的例子——然后规模就强加给了我们。我们认识到这是一个难以置信的机会,因为需要了解规模本身。」

在他们的新证明中,这对表明过度参数化对于网络的稳健性是必要的。他们通过计算将数据点与曲线拟合所需的参数来做到这一点,该曲线具有与稳健性等效的数学属性:平滑度。

为了看到这一点,再次想象平面中的一条曲线,其中 x 坐标代表单个像素的颜色,y 坐标代表图像标签。由于曲线是平滑的,如果稍微修改像素的颜色,沿着曲线移动一小段距离,相应的预测只会发生很小的变化。另一方面,对于极度锯齿状的曲线,x 坐标(颜色)的微小变化会导致 y 坐标(图像标签)的剧烈变化;长颈鹿可以变成沙鼠。

Bubeck 和 Sellke 表明,平滑拟合高维数据点不仅需要 n 个参数,还需要 n × d 个参数,其中 d 是输入的维度(例如,784 表示 784 像素的图像)。换句话说,如果你想让网络健壮地记住它的训练数据,过度参数化不仅有帮助——它是强制性的。证明依赖于一个关于高维几何的奇怪事实,即放置在球体表面上的随机分布的点几乎都彼此相距一个完整的直径。点之间的大间隔意味着用一条平滑曲线拟合它们需要许多额外的参数。

耶鲁大学的 Amin Karbasi 说:「证明是非常初级的——没有繁重的数学,它说明了一些非常笼统的东西。」

结果提供了一种新方法来理解为什么扩大神经网络的简单策略如此有效。

其他研究揭示了过度参数化有帮助的其他原因。例如,它可以提高训练过程的效率,以及网络的泛化能力。虽然我们现在知道过度参数化对于稳健性是必要的,但尚不清楚稳健性对于其他事物的必要性。但是通过将其与过度参数化联系起来,新的证明暗示稳健性可能比想象的更重要,一个可以释放许多好处的单一密钥。

「稳健性似乎是泛化的先决条件。」Bubeck 说,「如果你有一个系统,你只是稍微扰乱它,然后它就失控了,那是什么样的系统?这是不合理的。我确实认为这是一个非常基础和基本的要求。」

相关报道:

https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neural-networks-do-better-20220210/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

4c5aac618d52146e94cc0822c23894f1.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482515.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

生命,到底是什么?

来源:腾讯研究院作者:Mark A. Bedua译者:宋词、范星辰令人着迷的生命地球表面布满了生命,而且通常很容易辨认。猫、胡萝卜、细菌都是活的,桥、肥皂泡、沙粒都是死的。但众所周知,生物学家们却没有关于生命的…

2022图机器学习必读的11大研究趋势和方向: 微分方程/子图表示/图谱理论/非对称/动态性/鲁棒性/通用性/强化学习/图量子等...

来源:机器学习研究组订阅作者:Michael Bronstein 牛津大学DeepMind人工智能教授、Twitter图机器学习负责人编译:熊宇轩一、要点概述几何在机器学习中变得越来越重要。微分几何和同源场为机器学习研究引入了新的思想,包括利用了对…

day31 线程

01 进程间通信 """ 队列:先进先出 堆栈:先进后出 """ from multiprocessing import Queue q Queue(5) # 括号内可以传参数 表示的是这个队列的最大存储数 # 往队列中添加数据 q.put(1) q.put(2) print(q.full()) # 判断队列是否满了 q.put(3)…

机器学习理论基础到底有多可靠?

来源:机器学习算法与Python实战选自:aidancooper.co.uk 作者:Aidan Cooper编译:机器之心 知其然,知其所以然。机器学习领域近年的发展非常迅速,然而我们对机器学习理论的理解还很有限,有些模型…

07.MyBatis中的关联查询

关联查询&#xff1a; 一对一&#xff1a; 两种方式实现: 1.通过业务扩展的方式进行一对一查询&#xff0c;新建一个实体类&#xff0c;继承其中属性多的一个&#xff0c;然后写上另一个类中的属性&#xff1a; 实体类: 映射文件: 1 <!-- 业务扩展的方式进行一对一查询&…

黄仁勋回应放弃收购Arm:公司战略并没有太大改变

来源&#xff1a;网易智能2月21日消息&#xff0c;芯片巨头英伟达不久前公布了2022财年第四财季财报&#xff0c;显示其营收较上年同期猛增53%&#xff0c;游戏、数据中心和专业可视化市场平台也都实现了创纪录的收入。财报发布后&#xff0c;该公司首席执行官黄仁勋接受美国科…

无生命的AI算不上「智能」

来源&#xff1a;AI前线作者&#xff1a;Ben Dickson译者&#xff1a;王强策划&#xff1a;刘燕什么是智能&#xff1f;以非常快的速度解决复杂的数学问题就算智能吗&#xff1f;在国际象棋中击败世界冠军的力量算智能吗&#xff1f;分辨图像中数千个不同对象的能力算智能吗&am…

MySQL 练习 创建表格2

|--需求说明 #实践课&#xff0c;使用SQL语句创建成绩表#要求&#xff1a;在数据库myschool中&#xff0c;使用SQL语句创建成绩表result&#xff0c;result的结构表见书上 |--实现思路 采用创建表的语句完成 |--代码内容 #实践课&#xff0c;使用SQL语句创建成绩表 #要求&#…

前沿速递:因果涌现在多种因果衡量标准下普遍存在

来源&#xff1a; 集智俱乐部作者&#xff1a;陈昊编辑&#xff1a;邓一雪导语因果涌现理论指出&#xff0c;在宏观尺度下观察复杂系统可以减少因果关系中的噪声&#xff0c;从而得到具有更强因果关联的系统。目前该理论已经在有效信息和整合信息的因果度量标准下得到的验证&am…

类脑计算的一大突破 BrainScaleS-2

来源&#xff1a;混沌巡洋舰今天最成功的人工智能算法&#xff0c;人工神经网络&#xff0c;是基于我们大脑中错综复杂的真实神经网络。但与我们高效的大脑不同的是&#xff0c;在计算机上运行这些算法消耗了惊人的能量: 最大型的模型在训练全过程中消耗的能量几乎相当于五辆汽…

委托、Lambda表达式、事件系列07,使用EventHandler委托

谈到事件注册&#xff0c;EventHandler是最常用的。 EventHandler是一个委托&#xff0c;接收2个形参。sender是指事件的发起者&#xff0c;e代表事件参数。 □ 使用EventHandler实现猜拳游戏 使用EventHandler实现一个猜拳游戏&#xff0c;每次出拳&#xff0c;出剪刀、石头、…

2022年国家自然科学基金指南发布情况

来源&#xff1a;锐动源编辑部近日&#xff0c;2022年国家自然科学基金部分项目申报指南已陆续发布。据不完全统计&#xff0c;截至目前2022年国家自然科学基金已发布32个项目的申报指南&#xff0c;其中“国家自然科学基金委员会与日本学术振兴会合作与交流项目”已发布获资助…

最简单概率论的五个智慧

来源 &#xff1a;罗辑思维在我认为人人都应该学一些概率知识&#xff0c;它现在是公民的必备知识。现在的世界比过去复杂得多&#xff0c;其中有大量不确定性&#xff0c;是否理解概率&#xff0c;直接决定一个人的开化程度。01随机&#xff1a;有些事情是无缘无故地发生的这个…

谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果

来源&#xff1a;ScienceAI编辑 &#xff1a;泽南、张倩和 AlphaFold 不同&#xff0c;这次谷歌探索的是用深度学习给蛋白质打上功能标签。蛋白质是组成人体一切细胞、组织的重要成分。机体所有重要的组成部分都需要有蛋白质的参与。目前已知存在的蛋白质种类有数十亿&#xff…

你真的了解计算生物学和AI for Science吗?

来源&#xff1a;量子位Q1&#xff1a;AlphaFold2的最大意义是什么&#xff1f;A1&#xff1a;这个看似突破性的进展&#xff0c;其实是技术演进的必然结果。 此外&#xff0c;如果我们换个视角来看待这个问题&#xff0c;蛋白质结构预测仅仅是计算生物学这个大门类里面一个相对…

Stephen Wolfram专访Judea Pearl:从贝叶斯网络到元胞自动机

来源&#xff1a; 集智俱乐部编译&#xff1a;闫和东、徐培 编辑&#xff1a;邓一雪 导语2022年人工智能与数学国际研讨会&#xff08;ISAIM 2022&#xff09;恰逢著名计算机科学家、贝叶斯网络之父 Judea Pearl 85岁生日&#xff0c;会议期间Mathematica创始人 Stephen Wolfra…

day32 并发编程之锁

并发编程之锁 1. GIL全局解释器锁 2. GIL与普通的互斥锁 3. 死锁 4. 信号量 5. event事件 6. 线程q 1. GIL全局解释器锁 """ In CPython, the global interpreter lock, or GIL, is a mutex that prevents multiple native threads from executing Python bytec…

马斯克Neuralink被曝“虐杀实验猴”,140万元美金项目遭谴责

来源&#xff1a; 学术头条作者&#xff1a;刘芳编辑&#xff1a;黄珊2021 年 4 月&#xff0c;马斯克公布了一段猴子用意念玩乒乓球游戏的视频&#xff0c;一时间为他旗下的脑机接口公司 Neuralink 赚足了眼球。然而最近&#xff0c;这些被用来做脑机接口实验的猴子的经历&…

死前真的会有「跑马灯」,人类首次同步测量大脑濒死状态

来源&#xff1a;新智元编辑&#xff1a;袁榭 好困或许&#xff0c;人死前可能真会眼前出现人生跑马灯&#xff01;最近&#xff0c;神经科学家在记录了一个濒临死亡的人类大脑的活动之后发现&#xff0c;人在死亡前后有节奏的脑电波模式与做梦、回忆记忆和冥想时出现的模式相似…

七牛图片盲水印

注意 暂时不支持从 dora 数据处理直接调该接口&#xff0c;只支持从 kodo 存储调用。即 cdn 域名不可开通图片瘦身调用形式 资源 http://i.iamlj.com/19-08-12/123936.png 处理参数 watermark/6/method/encode/text/aGVsbG8gcWluaXU 新图 http://i.iamlj.com/19-08-12/123936-w…