ICLR 2023 最高分论文被锤抄袭??

dc5d4f3156a7a674d51e7bffc0dd5a8c.jpeg

文 | 智商掉了一地

究竟是Git Clone还是Git Re-Basin?被评论区长文石锤!

1e2ec8a31839ad1b7467dbcbb449dd61.png

如上图所示,ICLR 2023 官方近期正式宣布评审工作已结束,评分最高的 Git Re-Basin 这项神经网络启发性新研究探索了在深度学习中,SGD算法在高维非凸优化问题令人惊讶的有效性。这篇来自华盛顿大学的工作在推特引起了火热讨论,甚至连 Pytorch 的联合创始人 Soumith Chintala 也发文盛赞,他表示如果这项研究如果转化为更大的设置,实现的方向将会更棒,能够合并包括权重的两个模型,可以扩展 ML 模型开发,并可能在“开源”的联合开发模型中发挥巨大的作用。

a67fd8f222500e1ed60c65431085d507.png

但就在前两天,OpenReview 上竟然有 public comment 发布长文,石锤这篇 ICLR 最高分论文涉嫌抄袭,并且在评论区详细推导了它和之前工作的等价性。这位发表长文评论的作者 Sidak Pal Singh 是深度学习理论、优化和因果表征学习领域的学者,恰好他就比较关注 Optimization 问题,发现了这篇工作的一些端倪,以下将会进行详细的解读。

f918450e7938f3598306d62bef4333dc.png
▲长文评论作者 Sidak Pal Singh 个人信息

Sidak Pal Singh 的这篇评论从题目就开始质问:究竟是「Git Clone」还是「Git Re-Basin」?开篇更是直截了当地指出这篇工作是将过去的许多工作综合在一起“炒冷饭”

  1. Git Re-Basin 的方法 1 被证明与 OTFusion[3] 的基于激活的对齐方法相同

  2. Git Re-basin 的方法 2 和 3 与过去工作中的方法 [1,2,3,4] 高度相似,但没有进行任何与 Baseline 的比较。

  3. 许多结果或观察在过去的工作中已经以类似的形式表现出来,但在本文中被重新呈现了出来

  4. 文中引用其中一些著作 [3-5] 只是做做表面工夫,而没有准确地列出其关键贡献

所以综上所述,Sidak Pal Singh 申斥文中许多主张是夸大、无效乃至欺骗性的

0722af96357d589c1bc778002cf9bfc8.png

Sidak Pal Singh 还强调了这是学术不端现象,他指出,在相关工作的基础上做研究是绝对没有错的,但必须诚实、不能欺骗

  1. 目前,他们主要的“新算法的贡献”似乎并不新。

  2. 正如论文审稿人 qnqB 和 Nc4c 所暗示的那样,关于 SGD 的问题似乎已经存在着一些争议;

  3. MLPs/CNNs/ResNets 在 MNIST、CIFAR10 和 CIFAR100 上的实证结果,这些都或多或少是已知的 [2-6]。

(A) 等价于[3]的数学证明

首先要从数学上证明 Git Re-Basin 的方法 1(基于匹配激活)与 Singh&Jaggi(2019)[3] 中使用的方法之一相同。[3] 的主要思想是利用最优传输(OT)首先获得给定网络的分层对齐,然后在对齐后分别对其参数求平均值。

以下证明的要点是,对于均匀边缘和欧氏度规,由于经典的 Birkhoff-von Neumann 定理,方法 1 和基于 OT 的[3]方法的解集是相同的。(这是相当直接的,可以在推论1 https://mathematical-tours.github.io/book-sources/optimal-transport/CourseOT.pdf 中找到对其他类型代价的更普遍的证明)

概括一下,OT 问题可以表示为如下线性规划:

其中,运输计划 表示从“源位置”移动到“目的位置”的“货物”数量,并且必须满足源和目的地(即 和 )的质量守恒约束。进一步地,将 ground cost 矩阵记为 ,其中的元素指定了相应的源-目的地对之间的单位运输成本。

为简单起见,在 [3] 中,假设所有神经元都具有同等的重要性(在上述说法中,“供应”和“需求”的数量相同),因此我们可以设置 。为了方便,我们将传输图 乘以标量 称为 ,即 ,而 现在是一个双随机矩阵(所有行和列的总和必须为1)。

现在,我们考虑 [3] 的基于激活的方法,其中成本矩阵 可以用Git Re-Basin的表示法表示为 。

然后使用简写的 和 提取各自矩阵的对角线(向量),我们可以将代价矩阵表示为:

因此,我们可以将OT问题表示为:

现在,利用质量守恒的约束条件,我们得到了下面的等价问题:

因此,我们认为上述优化目标与本文的公式 1 中的优化目标相同。

似乎还有一个区别:OT 的域是双随机矩阵的集合,而 Git Re-Basin 的域是排列矩阵的集合。但是,任何学过线性规划课程的人都知道,线性规划的解是在多元面(即顶点)的极值点上找到的。由于著名的Birkhoff-von Neumann 定理,Birkhoff polytope(双随机矩阵)的极值点恰恰是置换矩阵,因此这两个问题的解是相同的。

因此,本研究的方法 1 只是 [3] 的一个特例,并且在考虑其基于激活的 ground cost 时与 [3] 相同

备注:作者指出,作为他们方法 1 的进一步变体,也可以使用激活的互相关矩阵。必须注意的是,这一点在 [5,第6页] 中已经考虑过了。

让我们一起来看看 Git Re-Basin 是怎么说的:

7b3ebf18370d27078ab49770582b6619.png

等等,咱们别忽略其他两个算法呀,它们也有类似的命运!

39f7a3aa6949b8bef12a636e54a5c658.gif

(B) 方法 2 和方法 3 与之前的研究 [1,2,3,4] 高度相似,缺乏 Baseline 比较

Git Re-Basin 提出的第二个“新颖”方法是“检查模型本身的权重”,以对齐神经元。这是一个需要考虑的自然策略,事实上,**类似的方法已经在过去的许多工作中使用过——可以追溯到 2015年 [1] 和 [2,3]**。同样地,所有这些过去的方法也不需要依赖输入分布(例如,[3]的基于权重的对齐),可以在几秒钟内运行(参见下面的C.3节),这与 Git Re-Basin 传达的印象不同。

更具体地说,正如他们在工作中所说的,与基于激活的对齐相比,基于权重的匹配固有地提出了一个更复杂且很难精确地计算解决的双线性分配问题。之前的大多数工作 [1-3] 使用从输入层到输出层的贪心层对齐神经元。Git Re-Basin 采用了一种替代的方式,可能比上面的工作稍微好一点,尽管代价是计算和运行时间更昂贵。然而,不幸的是,Git Re-Basin 完全没有认识到这一点,并完全将这些相似之处掩盖起来。更不用说与之前的作品进行比较了!

此外,过去的工作 [2-4] 选择使用额外的计算在初始校准后进行微调/再训练(fine-tune/retrain),而非弥补任何缺点。这就引出了方法 3,他们使用“STE 估计器”,在寻找对齐和(猜猜是什么——)再训练之间交替进行一些迭代,比如一个 epoch(这里称为“向后传递”)。很明显,这种策略与文献 [2-4] 中使用的微调/再训练方法非常相似。事实上,还有两点可以说明这一点:

  1. 当与再训练相结合时,一开始只需一个基于权重的对齐方式就足够了,而不必在每一步之后都寻找全新的对齐方式,如 [3] 所示。在这种情况下,当作者在 STE 方法中也只执行一次基于权重的对齐时,是否会注意到任何显著的性能下降(如果有的话),这将很有趣了。

  2. 更令人惊讶的是,当融合两个网络时,[3] 还发现,简单地再训练幼稚或普通的网络表现具有竞争力。换句话说,仅仅使用 identity 作为初始排列矩阵,并结合再训练(或STE方法的某些方式),可能相当有竞争力

然而,作者们又一次没有进行这些比较,而是给他们的方法披上了一层新奇的外衣。包括了先前工作的 Baseline 可能会被质疑“新颖性”,对吧?

0bef03bbf7cd6f814d42015bfc94eb9e.gif

(C) 一些结果或观察结果已经以类似的形式为人所知

  1. 作者声称:655bc3f054d70298ae00039127211ec4.png13e31f42e586228b120263d72cdb5700.png但我们想指出的是 [3] 的表 1,其中对于 CIFAR10 上的 ResNet18,已经表明 OTFusion(STE 一样进行再训练)获得了 的准确性,而单个网络的准确性为 和 。这应该表明两个独立训练的 Resnet 之间存在可忽略的势垒 LMC 的初步证据,因为 OTFusion 网络对应于插值曲线中的 ,这通常是与单个网络性能的最大偏差点(如图 2 所示)。13f419f6f36d599c913e383eed8d8329.png

  2. 接下来,作者对此进行了讨论:a152da8c2a13f30a19ddf9a4e2d6f709.png但是,[3]中有一整节详细说明(附录 S10 和表 S11)宽度如何降低全连接网络的性能差距(排列后)。这甚至是在[6]表明更广泛的模型在全连接和卷积网络中都表现出更好的 LMC 之前。此外,从[3]的表 S1 中还可以看到“模式连接时间”的新形式。由于 中的势垒定义为最大值除以 ,显然,势垒至少应该与表 S1 中描述的 的势垒一样大。

  3. 然后作者(错误地)声称他们是首个在几秒钟内找到解决方案的人:6f9ff12aba1239483408de89828ca487.png9d8ebe5cff6c282030e80c49e1b83da5.png考虑到他们的“新颖”算法只是炒过去工作 [1-4] 的“冷饭”,当 [3] 的第 5 页提到“在一个 Nvidia V100 GPU 上融合 6 个 VGG11 模型所需的时间≈15秒”时,这就不足为奇了。此外,在 S1.4 节中,[3] 详细说明了要融合两个网络,MLP 大约需要“3 秒”,CIFAR10 上 VGG11 大约需要“5 秒”,CIFAR10 上 ResNet18 大约需要“7 秒”。不幸的是,谎言又一次被传播开来。

  4. 此外,作者在第 5.4 节中指出,在不相交数据集上训练的模型可以被合并。然而,在 [3] 中完全相同的是,一页长的章节 5.1 演示了精确的事实!——审稿人 qnqB 也指出了这一点。但作为一种常见的模式,这里没有提及到这点,更别说进行任何比较了。

272951280152bb9909fa725d913ab8f3.gif

(D) “引用”相关工作的徒劳

同样,这显然不是建立在以前工作基础上的问题,但不以正确的方式提出它们,或像这里第 9 页第 3 段中那样油腔滑调地陈述它们,才是让人是不可接受的。

具体如下:

  • 文献 [1,2] 未被引用。

  • 那么 [3] 不是“通过软对齐关联权重合并模型”,而是明确表示“我们主要使用精确 OT 求解器”,因此他们获得了精确的排列矩阵(见 [3] 表 S4 中融合前对齐网络的准确性)。我们已经在上面的(A, B, C)部分中看到了与 [3] 的巨大相似性。

  • 此外,[4] 的讨论表达得很奇怪,因为当他们的工作 [4] 中也说明了这一点时,不清楚为什么对他们来说融合等大小的网络会有问题。

  • 最后,简要地提到了 [5],但它们在模式连通性或算法相似性方面的主题相似程度被忽略了,正如审稿人 qnqB 所指出的那样。

26812cc2b579f4b2dff22c7d5b2a5154.gif

小结

现在我们已经看清了 Git Re-Basin 的假象,很清楚,它当前的形式只是以前工作的翻版 [1-5],包含了通过在额外的网络规模和数据集(例如 MNIST、CIFAR10、CIFAR100 的结果已在 [2-6] 中显示)。

在这一点上,还需要庆幸 ICLR 是允许社区参与审查过程的独特会议之一,从而避免不准确的判断渗透到文献中——在其他会议中,只有在做了这些判断的情况下才能进行回顾性地更正。鉴于 ICLR 是现代科学进程的火炬手,并将维护科学的完整性,希望我们能够继续对ICLR公正和严谨的决策过程保持信心。

最后,这篇长文评论的两位作者Sidak Pal Singh 和 Martin Jaggi 表示很乐意详细说明或回答任何进一步的意见。

“听我说中药苦,抄袭应该更苦”,今天的这件事应当对我们有一些启发:应当学习 Sidak Pal Singh 博士对于学术道德的端正态度,诚然,在相关工作的基础上做研究是本没有错的,但必须诚实、不能欺骗、不能心存侥幸地隐瞒

d58909fc79a7346bd07ab2ce6d5f6097.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 648ec6d1407de8757d7fcc1403a60055.png

长文评论链接:https://openreview.net/forum?id=CQsmMYmlP5T&noteId=9liIVMeFFnW

[1] Ashmore, Stephen, & Michael Gashler. "A method for finding similarity between multi-layer perceptrons by Forward Bipartite Alignment." 2015 International Joint Conference on Neural Networks (IJCNN). IEEE, 2015.

[2] Yurochkin, Mikhail, et al. "Bayesian nonparametric federated learning of neural networks." International Conference on Machine Learning. PMLR, 2019.

[3] Singh, Sidak Pal, & Martin Jaggi. "Model fusion via optimal transport." Advances in Neural Information Processing Systems 33 (2020): 22045-22055.

[4] Wang, Hongyi, et al. "Federated learning with matched averaging." arXiv preprint arXiv:2002.06440 (2020).

[5] Tatro, Norman, et al. "Optimizing mode connectivity via neuron alignment." Advances in Neural Information Processing Systems 33 (2020): 15300-15311.

[6] Entezari, Rahim, et al. "The role of permutation invariance in linear mode connectivity of neural networks." arXiv preprint arXiv:2110.06296 (2021).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476743.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新浪的图片新闻效果

<html><head><title>新浪的图片新闻效果</title><meta http-equiv"Content-Type"content"text/html; charsetgb2312"></head><body bgcolor"#FFFFFF"text"#000000"><p> </p>&l…

机器学习方法_机器学习模型应用方法综述

文章发布于公号【数智物语】 &#xff08;ID&#xff1a;decision_engine&#xff09;&#xff0c;关注公号不错过每一篇干货。来源 | 数据派THU&#xff08;id&#xff1a;DatapiTHU&#xff09;作者&#xff1a;Julien Kervizic翻译&#xff1a;陈之炎 校对&#xff1a;李海明…

程序员面试金典 - 面试题 16.21. 交换和(哈希set)

1. 题目 给定两个整数数组&#xff0c;请交换一对数值&#xff08;每个数组中取一个数值&#xff09;&#xff0c;使得两个数组所有元素的和相等。 返回一个数组&#xff0c;第一个元素是第一个数组中要交换的元素&#xff0c;第二个元素是第二个数组中要交换的元素。 若有多…

来,教你成为科研卷王

作为曾经熬通宵肝论文的过来人&#xff0c;小编要吐槽&#xff0c;论文写久了真的会头秃&#xff0c;尤其是确定选题和创新点的时候&#xff0c;是薅头发事件的高发阶段。对于那些导师放养、在自己的摸索中磕磕绊绊前行的科研新手们&#xff0c;焦虑总是瞅准时机就扑面而来——…

DEBUG主要命令(转)

1、如何调用DEBUG程序语法格式&#xff1a;DEBUG &#xff3b;驱动器名&#xff1a;&#xff3d;&#xff3b;路径&#xff3d;&#xff3b;文件名&#xff3d;如有文件名&#xff0c;则将指定的文件调入内存。如命令中没有指定文件名&#xff0c;则DEBUG可以与正在内存中的内…

python手机编译器可以干什么_Python是什么?Python学习用哪些编译器?

Python是什么&#xff1f;Python是一个非常好用的程序语言&#xff0c;开发的速度非常快。Python的设计哲学是优雅、明确、简单。因此&#xff0c;Perl语言中总是有多种方法来做同一件事的理念在Python开发者中通常是难以忍受的。 Python开发者的哲学是用一种方法&#xff0c;最…

程序员面试金典 - 面试题 16.16. 部分排序(排序/不排序)

文章目录1. 题目2. 解题2.1 排序2.2 不排序1. 题目 给定一个整数数组&#xff0c;编写一个函数&#xff0c;找出索引 m 和 n &#xff0c;只要将索引区间 [m,n] 的元素排好序&#xff0c;整个数组就是有序的。 注意&#xff1a;n-m 尽量最小&#xff0c;也就是说&#xff0c;找…

福州公交车与拖拉机相撞1人死亡

2007年7月3日下午17时许&#xff0c;福州地区大学新校区学园路路段发生一起交通事故。郑久忠(男&#xff0c;35岁&#xff0c;鼓楼区八一七中路734号弄一号)驾驶41路公交车沿学园路由北往南行驶&#xff0c;途经厚庭路和学园路交叉路口&#xff0c;与林亮(男&#xff0c;34岁&a…

综述|视觉Transformer在CV中的现状、趋势和未来方向

文 | 汽车人源 | 自动驾驶之心摘要Transformer&#xff0c;一种基于注意力的编码器-解码器模型&#xff0c;已经彻底改变了自然语言处理&#xff08;NLP&#xff09;领域。受这些重大成就的启发&#xff0c;最近在计算机视觉&#xff08;CV&#xff09;领域采用类似Transformer…

python变量定义问题_python 定义n个变量方法 (变量声明自动化)

python 定义n个变量方法 (变量声明自动化) code&#xff1a; for i in range(100): cmd "t%s 1" % i exec cmd eval("t%s" % i) print t10 输出 1 &#xff0c; 表示我们创建了 t0 - t99 这样的变量 以上这篇python 定义n个变量方法 (变量声明自动化)就是…

CodeFileBaseClass 属性

asp.net 2.0 中&#xff0c;今天遇到了一个错误&#xff1a;Make sure that the class defined in this code file matches the inherits attribute, and that it extends the correct base class (e.g. Page or UserControl)原因是我的 CodeBehind 类继承了自定义的页面基类。…

程序员面试金典 - 面试题 10.03. 搜索旋转数组(二分查找)

1. 题目 搜索旋转数组。给定一个排序后的数组&#xff0c;包含n个整数&#xff0c;但这个数组已被旋转过很多次了&#xff0c;次数不详。 请编写代码找出数组中的某个元素&#xff0c;假设数组元素原先是按升序排列的。若有多个相同元素&#xff0c;返回索引值最小的一个。 示…

强化学习,商业化之路宣告死亡了吗?

文 | Shona继DeepMind推出AlphaGo已过去7年&#xff0c;强化学习在游戏行业有了不少应用&#xff0c;例如游戏陪玩、AI托管等。在这过程中&#xff0c;越来越多的公司 / 研究院所为强化学习的研究投入了大量的资源与精力。随之而来的&#xff0c;也有不少质疑&#xff0c;不少人…

转usb驱动cmw500 ni_支持USB Type-C接口的外置蓝光驱动器IO Data BRP-UT6 / MC2本月发售...

IO Data以其非正统的数据设备闻名&#xff0c;最近IO Data新推出了一款支持USB Type-C接口的外置超薄蓝光驱动器设备 BRP-UT6 / MC2&#xff0c;除了支持USB-C接口&#xff0c;其配置是非常标准的超薄外置蓝光光驱规格&#xff0c;支持最新的BDXL和M-DISC规格&#xff0c;附赠M…

ajax缓存处理

最近写程序是发现,使用ajax的时候,有时候既然不能访问请求页面了,压根就不走后台代码了.........测试了很久,发现应该是缓存的问题:可以在前台异步调用是加上:xmlHTTP.setRequestHeader("If-Modified-Since","0");或者如果你的后台请求页面是一个.aspx页面…

程序员面试金典 - 面试题 16.26. 计算器(栈)

1. 题目 给定一个包含 正整数、加()、减(-)、乘(*)、除(/)的算数表达式(括号除外)&#xff0c;计算其结果。 表达式仅包含非负整数&#xff0c;&#xff0c; - &#xff0c;*&#xff0c;/ 四种运算符和空格 。 整数除法仅保留整数部分。 示例 1: 输入: "32*2" 输…

深度学习撞墙?谷歌:是时候动用钞能力了

文 | 天于刀刀推特上万众瞩目的明星语言大模型比赛项目 Inverse Scaling Prize 终于在近期落下了帷幕&#xff0c;这也是社区中第一次针对 scaling law 反例的探究&#xff0c;各式各样的大模型和 NLP 任务在比赛期间被提出和应用&#xff0c;同样许许多多的成果也在这次比赛中…

python教程输入_python怎么输入一个集合

set()函数创建一个无序不重复元素集&#xff0c;可进行关系测试&#xff0c;删除重复数据&#xff0c;还可以计算交集、差集、并集等。 set 语法&#xff1a; class set([iterable]) 参数说明&#xff1a; iterable -- 可迭代对象对象&#xff1b; 返回值&#xff1a; 返回新的…

来了就不会空着手回去.

如果您需要帮助,可以到我的"文章"去看看,也许对您有帮助....以动手实践为荣 , 以只看不练为耻;以打印日志为荣 , 以单步跟踪为耻;以空格缩进为荣 , 以制表缩进为耻;以单元测试为荣 , 以人工测试为耻;以模块复用为荣 , 以复制粘贴为耻;以多态应用为荣 , 以分支判断为耻…

LeetCode 第 23 场双周赛(970/2044,前47.5%)

文章目录1. 比赛结果2. 题目1. LeetCode 5360. 统计最大组的数目 easy2. LeetCode 5362. 构造 K 个回文字符串 medium3. LeetCode 5361. 圆和矩形是否有重叠 medium4. LeetCode 5363. 做菜顺序 hard1. 比赛结果 做出来了 1、3 两题&#xff0c;继续加油&#xff01; 第二道字符…