LeCun论文被指「洗稿」? LSTM之父发文怒怼:抄我的还标原创

2cbc81ffb662937e0f4e7009bdfd0fb0.jpeg

编 | 好困 Joey David
源 | 新智元

LSTM之父、暴脾气大爷Jürgen Schmidhuber又开炮了?这回怼的是LeCun,说最近的新论文是炒了自己20多年前的冷饭,只不过换了种说法而已。

图灵奖得主Yann Lecun,作为AI界的三巨头之一,他发表的论文自然是被人当成「圣经」来学习的。

然而,最近突然有一个人跳出来炮轰LeCun「炒冷饭」:「无非就是把我的核心观点换种说法罢了」。

莫非……

f1c5a48728c7756b1f15a1e27f0fff48.png

没错,此人正是「LSTM之父」Jürgen Schmidhuber。

acd47d6d150a5d003de9597c94ee6cd4.png

Schmidhuber表示,LeCun的这篇论文并未提及1990-2015年期间的重要成果,文中所提及的「主要原创成果」,包括「学习子目标、可预测的抽象表征、多个时间尺度」等概念,他们也已经发表过了。

4e51367e4a5fe29a2ab35f4a8498fe42.png

原推中用的rehash这个词,也就是把原先的idea用另一种方式表达而不做创新,妥妥的「洗稿」了。

同时,他还发长文详细地列出了证据。

当然,这只能算是Schmidhuber的一面之词罢了。

a415ae4a148c8cf8bf17ea5dda231840.png

不过,网友们显然并不买账。

「你过去是AI界的一位重量级人物,但现在你出名的地方在声称每个人的学术成果都是剽窃了你的观点」。

96918dbe338edbe728f831d63ebf7f74.png

「神经网络、transformers、LSTMS是你发明的,那厕纸和面包片是不是也是你们家发明的」。

672fc333e8a79f400ee426622bc2a73b.png

所以,到底是个啥事?

让我们先捋一捋事情的来龙去脉。

2022年6月14日,被Schmidhuber称作Science Tabloid的一家「科学小报」(说的就是你MIT科技评论)发表了一篇LeCun的报告,其中阐述了他对AGI的新构想。

eb04ed261243919a8f2c317123fe24ea.png

6月27日,Yann LeCun发表了自己积蓄几年的论文「A Path Towards Autonomous Machine Intelligence」,并称其为「指明AI未来发展方向之作」。

0f593ebde20155106373d019a53ac371.png

这篇论文系统讲述了关于「机器如何能像动物和人类一样学习」的问题,长达60多页,感兴趣的朋友可以去看看。

LeCun表示,此文不仅是自己关于未来5-10年内关于AI发展大方向的思考,也是自己未来几年打算研究的内容,并希望能够启发AI界的更多人来一起研究。

311218ce11e834316a73706951e7ab58.png

大概是看LeCun这篇论文的影响越来越大,Schmidhuber终于决定在7月7日,放出自己写的长文,怒斥Lecun抄袭他的idea。

1a4a816b74a269ca6c8c414aaa85e8e2.png

Schmidhuber称,在文章还没公开发表之前,那家「科学小报」发来一份报告的草稿(还在保密期),并希望他能对此发表一些评论。

于是,Schmidhuber便洋洋洒洒地写了一篇「控告」,表示LeCun的文章基本上就是自己以前工作的翻版,而且还没有引用。

不出意料,他的评论石沉大海了。

58dd9d76f0a3e75ef3f551382a9a8215.png

LeCun只是重提我的工作,而且还没标引用!

Schmidhuber在这篇长文中表示,希望读者能研究原始论文,自己判断这些评论的科学内容,并且还希望自己的工作得到承认和认可。

LeCun论文开头部分说,本文描述的许多观点(几乎都是)由许多作者在不同的背景下以不同的形式提出,Schmidhuber则反驳称不幸的是,这篇论文的大部分内容就和我们1990年以来的论文「似曾相识」,且没有任何引用的标识。

先来看看他这次炮轰LeCun的证据(部分)。

证据1:

LeCun:

今天的人工智能研究必须解决三个主要挑战:

(1)机器如何能学会代表世界,学会预测,并学会主要通过观察来采取行动

(2)机器如何以与基于梯度的学习兼容的方式进行推理和计划

(3)机器如何以分层的方式,在多个抽象层次和多个时间尺度上学习表征感知(3a)和行动计划(3b)

Schmidhuber:

这些问题在1990年、1991年、1997年和2015年发表的一系列论文中得到了详细解决。

1990年,第一篇关于基于梯度的人工神经网络(NN)用于长期规划和强化学习(RL)以及通过人工好奇心进行探索的工作发表。

它描述了两个递归神经网络(RNN,最强大的NNN)的组合,称为控制器和世界模型。

其中,世界模型学习预测控制器行动的后果,控制器可以利用世界模型提前规划几个时间步骤,选择使预测奖励最大化的行动序列。

b2c7f3c66e22f0426b2d85a65107b910.png

关于基于神经网络的分层感知(3a)的答案,这个问题至少部分由我 1991年发表的「第一台深度学习机器—神经序列分块器」解决。

它在递归神经网络 (RNN) 的深层层次结构中使用无监督学习和预测编码,以在多个抽象级别和多个时间尺度(正是 LeCun 所写的内容)上找到「长数据序列的内部表征」。

ceb8d33bcdb8bf4e0391565e08efb31a.png

关于基于神经网络的分层行动计划(3b)的答案,已在 1990 年通过我的分层强化学习 (HRL)这篇论文至少部分解决了这个问题。

7039cfc01eab9730499a0129000feba6.png

证据2:

LeCun :

由于成本模块的两个子模块都是可微的,所以能量梯度可以通过其他模块反向传播,特别是世界模块、表演模块和感知模块。

Schmidhuber:

这正是我在 1990 年发表的内容,引用了 1980 年发表的「具有前馈神经网络的系统识别」论文。

2000年,我的前博士后 Marcus Hutter 甚至发表了用于学习世界模型和控制器的理论上最优、通用、不可微的方法。(另请参考称为哥德尔机的数学上最优的自我参照 AGI)

证据3:

LeCun :

短期记忆模块架构可能类似于键值记忆网络。

Schmidhuber:

然而,他没有提到我在 1991 年发表了第一个这样的「键值记忆网络」,当时我描述了序列处理「Fast Weight Controllers」或 Fast Weight Programmers (FWPs)。FWP 拥有一个慢速的神经网络,它通过反向传播学习以快速修改另一个神经网络的快速权重。

05afc7a2eadec11efda21a3059b4479e.png

证据4:

LeCun:

这篇论文的主要原创贡献在于:

(I)一个整体认知架构,其中所有模块都是可区分的,其中许多模块是可训练的。

(II)H-JEPA:预测世界的非生成层次架构在多个抽象级别和多个时间尺度上学习表示的模型。

(III)一系列非对比自我监督学习范式,产生同时提供信息和可预测的表示。

(IV)使用 H-JEPA 作为不确定性下分层规划的预测世界模型的基础。

对此,Schmidhuber也按照LeCun列出的这四个模块一一校对,并给出了与他论文中有重合的点。

文章最后,他表示这篇文章的重点不是攻击发表的论文或是其作者所反映的想法,关键是这些想法并不像LeCun 的论文中写的那样「原创」。

他说,这些观点的提出中许多都有着我和我的同事的努力,LeCun现在所提出的他的「Main original contribution」其实与我几十年来研究的贡献密不可分,我希望读者自己判断我的评论的有效性。

从LSTM之父到……

其实,这位大爷声称别人抄袭他的成果也不是第一回了。

早在去年9月,他就在博客上发文表示,现在引用最多的神经网络论文成果,都是建立在我实验室完成的工作之上的:

「LSTM不用说了,其他还有今天鼎鼎大名的开创性工作比如ResNet,比如AlexNet、GAN、Transformer,都和我的工作有关系。有些工作的第一版就是我做出来的,但是现在这些人不讲武德,引用不规范,搞得这些成果现在的归属认知有问题。」

虽然大爷气性很大,但不得不说Jürgen Schmidhuber这么多年来确实有些意难平。

同为AI领域的前辈级人物,开创性成果没少做,但获得的声誉和认可度似乎总与期望值有很大差距。

尤其是在2018年,深度学习三巨头:Yoshua Bengio、Geoffrey Hinton、Yann LeCun荣获图灵奖时,就有不少的网友发出了质疑:图灵奖为什么没颁给LSTM之父Jürgen Schmidhuber?他也是深度学习领域的大家啊。

009e3ee9ec7a004961086bd0543f2ef0.png

时间回到2015年,当时Bengio、Hinton和LeCun三位大神联手在Nature上发了一篇review,题目直接就叫《Deep Learning》。

文章从传统的机器学习技术讲起,总结了现代机器学习的主要架构和方法,描述了训练多层网络架构的反向传播算法,以及卷积神经网络的诞生,分布式表示和语言处理,以及递归神经网络及其应用等等。

83990a225c2a1dd4734ae0840b931133.png

不到一个月后,Schmidhuber就在自己的博客上发文进行了批评。

f1ee2a833ae5919d4d7bedaf08db3579.png

Schmidhuber表示,这篇文章让他非常不爽,因为全文多次引用三位作者自己的研究成果,而对于其他先驱人物对深度学习更早的贡献则只字不提。

他认为,获得图灵奖的「深度学习三巨头」俨然成了贪他人之功,以为己利的鸡贼、借助江湖地位互相吹捧,压制老前辈的学阀。

2016年,Jürgen Schmidhuber又在NIPS大会的Tutorial上和「GAN之父」Ian Goodfellow正面交锋。

当时,Goodfellow正讲到GAN与其他模型相比较时,Schmidhuber便站出来提问打断。

136633dddad379db57b1a50187ad74a8.png

Schmidhuber的问题很长,大概说了两分钟,主要内容是强调说自己在1992年就已经提出来PM,接着说了一大堆它的原理、实现过程等等,最后图穷匕见:你说说你的GAN和我的PM有没有相似之处?

Goodfellow也不示弱:你说的问题我们之前在邮件里已经交流过很多次了,我也早就公开回应过你了,不想在现在的场合浪费听众的耐心。

等等,等等……

或许Schmidhuber的这些「蜜汁操作」,可以用LeCun曾经的一封邮件来解释:

「Jürgen 对众人的认可过于痴迷,总是说自己没有得到应得的很多东西。几乎是惯性地,他总是在别人每次讲话结束时都要站起来,说刚刚提出的成果有他的功劳,大体上看,这种行为并不合理。」

a4b5f401a0e52f3d32272203fb57855e.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 99fe4e38ddeb4e4df51c63b7277a479e.png

[1]https://people.idsia.ch/~juergen/lecun-rehash-1990-2022.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477177.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ESLint 在中大型团队的应用实践

引言 代码规范是软件开发领域经久不衰的话题,几乎所有工程师在开发过程中都会遇到,并或多或少会思考过这一问题。随着前端应用的大型化和复杂化,越来越多的前端工程师和团队开始重视 JavaScript 代码规范。得益于前端开源社区的繁盛&#xff…

程序员面试金典 - 面试题 02.05. 链表求和

1. 题目 给定两个用链表表示的整数,每个节点包含一个数位。 这些数位是反向存放的,也就是个位排在链表首部。 编写函数对这两个整数求和,并用链表形式返回结果。 示例: 输入:(7 -> 1 -> 6) (5 -> 9 ->…

互联网人到最后拼的是体力

文 | 卫夕源 | 卫夕指北互联网人到最后拼的是体力,这么说可能有点绝对。但如果我们将时间线拉长,体力代表的精力绝对是一个人能在互联网领域保持长期竞争力的最重要的因素。至少也是最重要的之一。1.很多互联网人退出了职场竞争,看起来是心力…

谷歌、斯坦福联合发文:我们为什么一定要用大模型?

文 | Harris语言模型已经深刻变革了自然语言处理领域的研究和实践。近年来,大模型在多个领域都取得了重要的突破。它们无需在下游任务上微调,通过合适的指令或者提示就可以取得优异的性能,甚至有时让人为之惊叹。例如,GPT-3 [1] 可…

程序员面试金典 - 面试题 02.04. 分割链表

1. 题目 编写程序以 x 为基准分割链表,使得所有小于 x 的节点排在大于或等于 x 的节点之前。如果链表中包含 x,x 只需出现在小于 x 的元素之后(如下所示)。分割元素 x 只需处于“右半部分”即可,其不需要被置于左右两部分之间。 示例: 输入…

深度学习在搜索业务中的探索与实践

本文根据美团高级技术专家翟艺涛在2018 QCon全球软件开发大会上的演讲内容整理而成,内容有修改。 引言 2018年12月31日,美团酒店单日入住间夜突破200万,再次创下行业的新纪录,而酒店搜索在其中起到了非常重要的作用。本文会首先介…

京东金融,你到底是坏,还是码农裁多了??

7.12更新:部分基金赎回的钱已经到账小金库了,今日从小金库提现时又提示银行卡已删除,不过这次可以点击重新绑定,重新绑定时会报错“绑定的卡与原卡一致”,流程没法走完。但这时候再退回去却发现“银行卡已删除”的提示没有了。于是…

程序员面试金典 - 面试题 17.14. 最小K个数(快排划分O(n))

1. 题目 设计一个算法&#xff0c;找出数组中最小的k个数。以任意顺序返回这k个数均可。 示例&#xff1a; 输入&#xff1a; arr [1,3,5,7,2,4,6,8], k 4 输出&#xff1a; [1,2,3,4]提示&#xff1a; 0 < len(arr) < 100000 0 < k < min(100000, len(arr))来…

LruCache在美团DSP系统中的应用演进

背景 DSP系统是互联网广告需求方平台&#xff0c;用于承接媒体流量&#xff0c;投放广告。业务特点是并发度高&#xff0c;平均响应低&#xff08;百毫秒&#xff09;。 为了能够有效提高DSP系统的性能&#xff0c;美团平台引入了一种带有清退机制的缓存结构LruCache(Least Rec…

程序员面试金典 - 面试题 17.16. 理发师(动态规划DP)

1. 题目 一个有名的理发师会收到源源不断的预约请求&#xff0c;每个预约都可以选择接或不接。在每次预约服务之间要有休息时间&#xff0c;因此她不能接受相邻的预约。给定一个预约请求序列&#xff0c;替理发师找到最优的预约集合&#xff08;总预约时间最长&#xff09;&am…

关于NLP自监督学习,面试时被问崩溃了!

不要错过文末福利❤扫盲自监督无监督&#xff08;有不少同学还答不上来自监督和无监督真正的区别&#xff0c;我不是针对谁。&#xff09;无监督学习&#xff1a;无监督学习不依赖任何标签值&#xff0c;通过对数据内在特征的挖掘&#xff0c;找到样本间的关系&#xff0c;比如…

智能支付稳定性测试实战

本文根据美团高级测试开发工程师勋伟在美团第43期技术沙龙“美团金融千万级交易系统质量保障之路”的演讲整理而成。主要介绍了美团智能支付业务在稳定性方向遇到的挑战&#xff0c;并重点介绍QA在稳定性测试中的一些方法与实践。 背景 美团支付承载了美团全部的交易流量&#…

程序员面试金典 - 面试题 16.01. 交换数字(位运算swap)

1. 题目 编写一个函数&#xff0c;不用临时变量&#xff0c;直接交换numbers [a, b]中a与b的值。 示例&#xff1a; 输入: numbers [1,2] 输出: [2,1]提示&#xff1a; numbers.length 2来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 链接&#xff1a;https://le…

阿里巴巴达摩院对话团队招聘研究实习生!

招聘贴投放请联系微信xixiaoyao-1阿里巴巴-达摩院-对话智能团队正在招募研究实习生&#xff01;团队介绍达摩院对话智能&#xff08;Conversational AI&#xff09;团队成立于2014年&#xff0c;专注于人机对话前沿研究和大规模应用&#xff0c;打造了任务型对话开发平台 Dialo…

人物志 | 技术十年:美团第一位前端工程师潘魏增

导读 潘魏增&#xff0c;2006年毕业于南开大学电子系&#xff0c;2008年加入早期饭否团队。美团第一位前端工程师&#xff0c;现在是X项目组终端研发部的负责人。处女座&#xff0c;INTJ&#xff0c;喜欢Linux和Vim&#xff0c;崇尚开源&#xff0c;相信开源可以让世界变得更美…

程序员面试金典 - 面试题 04.02. 最小高度树(二叉搜索树中序遍历)

1. 题目 给定一个有序整数数组&#xff0c;元素各不相同且按升序排列&#xff0c;编写一个算法&#xff0c;创建一棵高度最小的二叉搜索树。 示例: 给定有序数组: [-10,-3,0,5,9], 一个可能的答案是&#xff1a;[0,-3,9,-10,null,5]&#xff0c;它可以表示下面这个高度平衡二…

算法岗校招已成“人间地狱”,还有办法上岸吗

由于一系列众所周知的原因&#xff0c;算法岗的竞争越来越激烈&#xff0c;知乎上有个问题&#xff0c;形象的将算法岗的秋招形势比喻成了“人间地狱”。虽然有夸张的成分&#xff0c;但也一定程度上反映了如今算法岗“僧多粥少”的现状。内卷焦虑、网络偏差影响下&#xff0c;…

LintCode 1753. 写作业(二分查找)

1. 题目 n个人&#xff0c;他们每个人需要独立做 m 份作业。 第 i 份作业需要花费 cost[i] 的时间。由于每个人的空闲时间不同&#xff0c;第 i 个人有 val[i] 的时间&#xff0c;这代表他做作业的总时间不会超过 val[i]。每个人都按照顺序&#xff0c;从1号作业开始&#xff…

美团容器平台架构及容器技术实践

本文根据美团基础架构部/容器研发中心技术总监欧阳坚在2018 QCon&#xff08;全球软件开发大会&#xff09;上的演讲内容整理而成。 背景 美团的容器集群管理平台叫做HULK。漫威动画里的HULK在发怒时会变成“绿巨人”&#xff0c;它的这个特性和容器的“弹性伸缩”很像&#xf…

全球1000+研究员在Twitter直播训练超大模型??

文 | 王思若将视角转换到2020年&#xff0c;OpenAI发布了拥有1750亿参数量的GPT-3, 在阅读理解、语言翻译、问答等多种任务展现了令人惊艳的效果&#xff0c;算法工程二者结合展现了大模型的“暴力美学”&#xff0c;也同时开启了千亿、万亿参数模型的 “军备竞赛”。从模型框架…