智源承认论文抄袭,相关责任人已离职!

a45e2f1dd5db3dbfe59b99f2e2096040.png

文 | 金磊Alex(凹非寺)
源 | 量子位

“2处属于抄袭,4处引用不规范。”

“相关责任人均已主动离职。”

“大模型研究中心部门重组。”

……

一篇名为A Roadmap for Big Model、由百人联合完成的综述报告,因涉嫌抄袭在国内外学术圈引发了不小的关注。

对此,涉事单位北京智源人工智能研究院,通报了事件调查后的最新结果

8435eb5d729f07ee71d722401a650f7f.jpeg

除了刚才提到的几点外,通报还指出了担负这次“抄袭门”事件的主要组织责任人,是智源大模型研究中心人员

那么引发国内外热议的学术抄袭事件背后,到底发生了什么?

2处抄袭,4处引用不规范

此次“抄袭门”的焦点,即这篇综述报告是由智源研究院大模型研究中心牵头,并邀请了国内外19个机构共100位科研人员撰写。

根据通报的介绍,综述共由16篇独立专题文章组成。除了第12篇之外,每篇文章都都有其对应的撰写作者和通讯作者。

45905fa9fe64b3a5b5fa5e7ad51c195f.jpeg

而一个核心的问题便出在了“协作”的过程中。在通报里的“组织失察责任认定”中,智源研究院表示:

智源大模型研究中心人员未严格按照学术出版规范的流程执行,在未与其他作者确认的情况下,于2022年3月26日将综述报告上传至arXiv,负有主要组织责任

除此之外,这次的通报还对此前网友们对于综述内容的质疑片段做了回应。

首先,智源研究院承认有2处质疑片段属于抄袭第一个抄袭片段是综述报告第2篇文章的2.3.1节,存在共计179个单词的多句重复。

根据《学术出版规范:期刊学术不端行为界定》中的“论文作者学术不端行为类型”规定:

文字表述剽窃:成段使用他人已发表文献中的文字表述,虽然进行了引注,但对所使用文字不加引号,或者不改变字体,或者不使用特定的排列方式显示。

这个抄袭片段属于这种规定的类型,而且也达到了《IEEE出版物服务和产品委员会操作手册》中,“对不同等级的抄袭行为进行判定的指南”的第5级

判定的要点是:对一篇文章的主要部分逐字复制,虽有引注但缺乏清晰区分。(注:抄袭共分5级,第1级最严重,第5级最轻微)

对此,通报表示,这篇文章中的两位作者(均为智源大模型研究中心人员)分别担负直接责任失察责任

f93e6c317598b36a6f92ef97e7f2001f.jpeg

第二处抄袭片段,是第8篇文章的8.3.1节,存在74个单词的整句重复。

负责该段落的作者也是来自智源大模型研究中心的人员,文章发布前未与通讯作者确认,应负直接责任。对此,智源研究院表示:

上述两名作者已经按照IEEE手册的对应纠正措施向原作者致歉,并得到原作者谅解,履行了应该承担的相关学术责任。

除此之外,通报还表示,质疑片段中的4处属于引用不规范。它们分别是:

  • 第10篇文章:存在少数重复文字

  • 第12篇文章:12.2.3节存在共计36个单词的重复,无整句重复

  • 第14篇文章:14.2.2节一处多句63个单词重复

  • 第16篇文章:16.1节一处存在多句重复

并且智源研究院对于上述问题所对应的作者也做了通报。至于剩下的被质疑片段,通报表示“属于规范引用”。

“相关责任人均已离职”

在通报的最后,智源研究院还公布了“处理和整改结果”。首先,智源研究院要求可能存在问题文章的作者,向原作者做书面致歉,并且表示“均已得到原作者反馈和谅解”。其次,由于“2处抄袭”的涉事人员均是来自智源研究院大模型研究中心的人员,因此通报决定:

重组该部门。

并且相关责任人均已主动离职。而对于此次发表流程中存在的漏洞,智源研究院表示“已经整改了论文发表流程,并修订完善了科研诚信与学风建设制度”。与此同时,鉴于此次的事件,智源研究院还做了后续的相关计划:

智源研究院计划与学界和业界合作,制定更严谨的文献引用规范,开发论文和代码开源检测工具和系统,避免再次出现类似问题。

事件回顾

在看完最新通报之后,我们也来一起回顾下这件事情的始末。

4月8日,谷歌大脑研究员Nicholas Carlini发文指出:A Roadmap for Big Model这篇文章抄袭了自己最近发表的一篇论文。

他列举了10个抄袭得比较明显的段落,并用绿色标出文字一致的部分。

0209eeeac8d65b1d51d594cf3a34e490.gif

Carlini发现这个情况的经历也挺戏剧的:他的一个论文合作者本来想看看智源这篇文章有什么值得学习的,结果有些部分越看越奇怪,最后发现原来该论文有些段落直接照搬了他们自己的文章。(吃瓜吃到自己头上 .jpg)

同时通过收集数据初步核查,Carlini发现这篇论文还涉嫌抄袭十余篇来自其他作者的论文。

在Carlini曝光智源这篇文章涉嫌抄袭后,很快引起国内外的广泛关注。连LeCun都评价道:

54ce64ae79802c059bc8167a752f884c.jpeg

有网友认为这是一个团队的学生写的,这些学生可能不够清楚学术规范,而其他大部分人都是挂个名。

b12f125bb476ac6f93c469406938d705.jpeg

还有人分享了自己遇到过的学术不端的事情。

ce1d6d765465802c3369c1d9900249a4.jpeg

一位疑似涉事论文的作者出来爆料说,当时留给自己的撰稿时间非常紧迫,只有一周多,他猜留给学生的时间可能更少,所以就出现了大段照搬的情况。

想要解决问题,应该给作者们更充裕的时间和更多机会。随着事情发酵,智源官方也很快做出了回应。

4月13日智源发布了《关于“A Roadmap for Big Model”综述报告问题的致歉信》;两天后又宣布成立调查组,就涉事论文开展独立调查。

175ad89b58b983722e353ad07d8077fb.png

7月15日,智源官方通报了调查结果。智源这次的排查机制,以及最后这种公开透明的结果公布,也算是比较妥当的处理方式了。

起初爆料智源论文涉嫌抄袭的Carlini后来也说,这篇文章受到的关注比自己的预期要多得多,所以恳请大家不要把这变成一场“猎巫行动”。

Carlini反对有人提出的“此类事情件中所有相关人员应当立即被解雇、应该被arXiv封禁等”,他劝各位不要对这篇文章的作者们过分苛责,而应该把更多目光投在整个学术领域的风气上。也正如智源在此次通告中所述:

除上述智源研究院相关责任人外,综述报告其他所有作者没有抄袭及学术不端行为。在此对此次事件给这些作者造成的负面影响和困扰表示诚挚歉意!再次诚挚感谢各界朋友对智源研究院的监督和批评!

9114ed32e89adb019bcf4e5bdf2f27d4.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

7fd31a7223eddbaac260c48d0f5e53ed.png

[1]https://www.baai.ac.cn/portal/article/index/cid/5/id/423.html

[2]https://www.baai.ac.cn/portal/article/index/cid/5/id/422.html

[3]https://www.baai.ac.cn/portal/article/index/cid/5/id/504.html

[4]https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477151.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LintCode 1689. k求和III(递归)

1. 题目 给出 n 个正整数和整数 k 以及一个目标数字 target. 在 n 个数中找出 k 个奇数 或 k 个偶数 使得和为target,输出方案数 样例 1: 给出 [1,2,3,4], k 2,target 4, 返回 1 输入: [1,2,3,4] 2 4 输出: 1 解释: 只有一个方案:[1,3].样例 2: 给…

美团扫码付小程序的优化实践

短短几年的时间,微信小程序已经从一颗小小的萌芽成长为参天大树,形成了较大规模的开发者生态系统,尤其是在支付、线下垂直领域潜力巨大。 作为领先的生活服务平台,美团的技术团队在小程序领域也进行了很多的探索和实践。像mpvue就…

谈谈算法岗简历优化与面试技巧!

秋招已经开始,许多同学都在为简历和面试发愁。我跟BAT某lab高级算法研究员、担任过多次技术面试官的Sunny师兄聊了聊,跟他请教了简历撰写和面试准备的方法。重磅福利在文末↓Sunny 目前在BAT某lab担任高级算法研究员,有多年的简历筛选和面试经…

LintCode 386. 最多有k个不同字符的最长子字符串(双指针)

1. 题目 给定字符串S,找到最多有k个不同字符的最长子串T。 样例 1: 输入: S "eceba" 并且 k 3 输出: 4 解释: T "eceb"样例 2: 输入: S "WORLD" 并且 k 4 输出: 4 解释: T "WORL" 或 "ORLD"挑战 O(n) 时…

院士发声:科研人也要养家,非升即走只能做短平快的研究

源 | 募格课堂综合自上游新闻、澎湃新闻、百度百科如今,59岁的中国科学院院士马大为,他也感慨科技界的“内卷”,“很多大学和研究单位没有按照科研的规律招PI(Principal Investigator,学术带头人、首席研究员&#xff…

镣铐之舞:美团安全工程师Black Hat USA演讲

背景 2018年8月9日,全球顶级安全会议——Black Hat USA在美国拉斯维加斯的曼德勒海湾会议中心落下了帷幕,这场盛会在全球黑客心中几乎等同于“世界杯”和“奥斯卡”一样的存在。这场一年一度的盛会已经有着21年的悠久历史,也被公认为世界信息…

LintCode 550. 最常使用的K个单词II(自定义set(可修改数据的优先队列) + map)

1. 题目 在实时数据流中找到最常使用的k个单词. 实现TopK类中的三个方法: TopK(k), 构造方法add(word), 增加一个新单词topk(), 得到当前最常使用的k个单词. 样例 1: 输入: TopK(2) add("lint") add("code") add("code") topk() 输…

Pix2Seq:谷歌大脑提出 CV 任务统一接口!

文 | 青豆最近一个大趋势就是将各类任务统一在一个大一统框架下。大规模预训练语言模型已成功打通各类文本任务,使得不同的NLP任务上,都可以用这种统一的sequence生成框架作为基础模型,只需要通过prompt的方式,指导模型生成目标结…

美团针对Redis Rehash机制的探索和实践

背景 Squirrel(松鼠)是美团技术团队基于Redis Cluster打造的缓存系统。经过不断的迭代研发,目前已形成一整套自动化运维体系:涵盖一键运维集群、细粒度的监控、支持自动扩缩容以及热点Key监控等完整的解决方案。同时服务端通过Doc…

剑指Offer - 面试题59 - II. 队列的最大值(deque模拟单调栈)

1. 题目 请定义一个队列并实现函数 max_value 得到队列里的最大值,要求函数max_value、push_back 和 pop_front 的时间复杂度都是O(1)。 若队列为空,pop_front 和 max_value 需要返回 -1 示例 1: 输入: ["MaxQueue","push…

行业现状令人失望,工作之后我又回到UC伯克利读博了

文 | SHREYA SHANKAR编 | 小舟、陈萍源 | 机器之心很多同学在面临读博和工作的选择时会犹豫不决,这篇文章也许能给你一点启发。机器学习领域近来受到大模型的冲击,很多小公司表示难以承担大模型的训练费用。但行业中机器学习工程的发展具体是怎样的&…

前端遇上Go: 静态资源增量更新的新实践

为什么要做增量更新 美团金融的业务在过去的一段时间里发展非常快速。在业务增长的同时,我们也注意到,很多用户的支付环境,其实是在弱网环境中的。 大家知道,前端能够服务用户的前提是 JavaScript 和 CSS 等静态资源能够正确加载。…

剑指Offer - 面试题26. 树的子结构(双重递归)

1. 题目 输入两棵二叉树A和B,判断B是不是A的子结构。(约定空树不是任意一个树的子结构) B是A的子结构, 即 A中有出现和B相同的结构和节点值。 例如: 给定的树 A:3/ \4 5/ \1 2 给定的树 B:4 /1 返回 true,因为 B 与 A 的一…

给1万帧视频做目标分割,显存占用还不到1.4GB | ECCV2022

文 | 明敏 发自 凹非寺源 | 量子位 | 公众号 QbitAI咦,怎么好好的藤原千花,突然变成了“高温红色版”?这大紫手,难道是灭霸在世??如果你以为上面的这些效果只是对物体后期上色了,那还真是被AI给…

互联网公司数据安全保护新探索

近年来,数据安全形势越发严峻,各种数据安全事件层出不穷。在当前形势下,互联网公司也基本达成了一个共识:虽然无法完全阻止攻击,但底线是敏感数据不能泄漏。也即是说,服务器可以被挂马,但敏感数…

剑指Offer - 面试题47. 礼物的最大价值(动态规划)

1. 题目 在一个 m*n 的棋盘的每一格都放有一个礼物,每个礼物都有一定的价值(价值大于 0)。你可以从棋盘的左上角开始拿格子里的礼物,并每次向右或者向下移动一格、直到到达棋盘的右下角。给定一个棋盘及其上面的礼物的价值&#…

大佬在线复盘:我在训练 DALL·E 时犯过的错

文 | jxyxiangyu在写了一周的业务代码后,沏一杯绿茶,总算可以有时间看看鸽了一个月的素材了。好的,小伙伴们,废话不多说,今天我们将跟随 Boris Dayma 大佬,看看他在训练 DALLE-Mega 时遇到的一系列问题。据…

Toast与Snackbar的那点事

背景 Toast是Android平台上的常用技术。从用户角度来看,Toast是用户与App交互最基本的提示控件;从开发者角度来看,Toast是开发过程中常用的调试手段之一。此外,Toast语法也非常简单,仅需一行代码。基于简单易用的优点&…

LintCode 1683. 杀怪兽(队列)

1. 题目 有 n 只怪兽和一个奥特曼,奥特曼和怪兽都有5个属性值。 当且仅当奥特曼的5个属性值都不小于怪兽时,奥特曼可以杀死怪兽。 当一个怪兽被杀掉时,这个怪兽的5个属性会增加到奥特曼身上。 请问奥特曼最多可以杀死多少怪兽? 样例 1: 输…

聊聊大火的多模态

多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉&#x…