从NeurIPS论文来看,中美学者很少互相引用

8fdef76b00eaece9ab69509233de9f99.jpeg

源|机器之心

想要改变这种情况还很难。

不知从何时起,我们习惯了人工智能的学术顶会上中美研究数量排名前两位的形势。不论在工业还是学术上,两者很大程度上引领了技术的发展,中美的交流也非常密切:不少大厂都会在对面设立研究院,每年都有很多人会前往美国留学,或进行学术交流。

然而一份新的统计研究认为,中美这两个领域内最重量级的玩家似乎不太对付:

f94a2439a3d0d2a15984bfd54e7724e3.png
▲不仅不互相引用,连话都不说。

这份研究引发了人们的热烈讨论。要知道,以最著名的 NeurIPS 为例,光是美国的论文数量就超过了接收总数量的一半。

12c397a27c6216efb39e4647dd6d2d01.png
▲NeurIPS 2021 的论文来源统计。

说前两名缺乏学术上的交流,属实有点反直觉了。然而这份研究的统计数据已经列好,而且还要在几天后的 NeurIPS 2022 上开一个研讨会。

5d6485b72208467765fb177eeb7e05d6.png

近年来,中国关于 AI 的研究迅速增长,就全球最负盛名的 AI 学术会议之一 NeurIPS 发表的论文总量而言,中国目前是仅次于美国的第二大国家。根据统计,2020 年,来自中国机构的论文数量占 NeurIPS 所有论文的 13.6%,到 2021 年,这一比例增加到 17.5%,相对增长了 28.7%。

尽管中国是 AI 强国,但中国与美国机构之间的合作比美国和西欧机构之间的合作要少。有趣的是,这些研究者还在机器学习会议上组成了不同的社交群体,比如说在交谈和用餐这些小事上,中国的研究人员经常是与欧洲和北美的研究人员分开的,彼此缺乏互动。

本文中,来自爱丁堡大学以及艾伦人工智能研究所等机构的研究人员,对中国研究人员和美国研究人员之间的差异进行了探索。研究中他们采用了 NeurIPS 引用数据,以此来分析美国和中国机构对学术研究的影响。结果发现中国机构对美国和欧洲的论文引用很少(under-cite),而美国和欧洲机构对中国的论文引用也很少。

501d4872fde8ae40c5c3e72be6b2a85d.png

论文地址:https://arxiv.org/pdf/2211.12424.pdf

中国和美国相互引用较少

中国和美国研究界之间的这种隔离有多严重?作者做了以下一些研究。

他们将从 AI 学术搜索引擎 SemanticScholar 上获得的 NeurIPS 论文的引用数据与从清华学术知识图谱 AMiner 的作者的机构信息结合起来,制定了一个引用图。具体来说,该研究首先从 NeurIPS 网站上收集了 NeurIPS 2012 - 2021 年的所有论文标题,之后使用 S2AG(Semantic Scholar Academic Graph) API 将论文标题映射到对应的 Semantic Scholar paper ID。对于那些不匹配的论文,该研究进行了手动搜索。每一篇论文都使用 S2AG API 来识别作者,以及参考文献中的论文作者。

接着,该研究使用 AMiner 识别每个作者的机构信息,结果发现在 9460 篇 NeurIPS 论文中共有 135941 位作者,其中有 83515 名作者找到了机构(占比约 61%)。此外在 AMiner 上有还有 4038 篇没有作者的论文被从数据中删除。接下来,该研究自动标记机构,包括国家名字以及常见的城市和地区。除此以外,该研究还删除了主要的跨国公司实验室(例如谷歌、Meta、微软、腾讯、阿里巴巴或华为)。

在剩下的 5422 篇论文中,该研究删除了不在特定地区(中国、美国、欧洲)或包括多个地区合作者的论文,最后只剩下 1792 篇论文用来研究。得出的结果如下

13df1d44315f3cab4d6e81ea85b132e9.png

根据图表显示,我们可以看出美国和中国的论文在多大程度上没有引用对方的文章。从中国对美国论文的引用量来看,虽然美国论文占了数据集的 60%(总共 1792 篇,图 1 左显示美国大约 1100 篇),但它们被中国论文引用的数量只占 34%(图 1 右)。

美国对中国论文的引用差距则更显著:虽然中国论文占数据集的 34%,但它们只占美国引用数的 9%。

作为对比,我们来看看美国对欧洲论文的引用,对比很明显:尽管在此次实验中,NeurIPS 论文数据集中的中国论文数量是欧洲论文的 6 倍,但美国机构引用中国论文的频率低于欧洲论文。

该研究还观察到每个地区自引的频率都高于被其他地区引用的频率:中国为 21%, 美国为 41%,欧洲为 14%。美国和欧洲的研究界有着相似的引用行为,对中国论文的引用很少,而中国机构引用美国和欧洲论文的频率低于其他地区。

不过也有网友认为:来自不同国家的机构可能会侧重于不同的领域(例如 NLP 中的 ML 方法、数据效率等)。他们很少引用他们领域之外的论文。

6b63cc473ab7131db0e09f862e7ea049.png

需要注意的是,该研究忽略了很多复杂的因素。首先,虽然统计认为任何位于美国的大学的工作都归属美国,但美国实验室可能仍与中国机构有密切联系,这可能导致作者高估了美国和中国人工智能研究之间的隔阂。例如,美国存在大部分或全部由中国留学生组成的实验室。

同样,返回祖国的中国国际学生可以为母校和其他机构带来国际联系。我们无法衡量这些毕业生在多大程度上改变了他们的引用模式,变得关注国内论文,或是继续广泛引用美国的工作。此外,对于研究论文范围的限制也影响了结论的可信度。

结论

虽然美国和中国的研究人员经常在同一个学术活动上发表论文,但他们代表了两个平行的社区,相互之间的影响低于应有的程度。这种分歧可以归因于对不同主题的兴趣,因为文化氛围会影响研究重点。例如,多目标跟踪在中国是一个活跃的研究领域,有流行的大规模基准。

然而在北美,对滥用生物识别数据的批评导致研究人员回避相关任务和数据集。同样,在 FACCT 等公平性会议上,美国研究者的贡献往往较多,而中国的代表人数仍然有限。然而,即使是在中国流行的抽象主题或架构在其他地区也未必流行。PCANet 是一个来自新加坡研究实验室的图像分类架构,有 1200 次引用,主要来自中国或东亚机构。南京大学开发的 Deep Forests  获得了 600 多次引用,其中大部分是国内研究。

受地区间缺乏交流限制的不仅是研究课题。近年来,北美和欧洲的 AI 社区已经开始就 AI 的伦理考虑进行对话和发表研究。根据这些思考,AI 会议系统地要求审稿人关注道德问题,并要求作者撰写道德声明或清单。然而,与中国研究人员就这些主题进行的接触仍然有限。

这种脱节的一个例子是 NeurIPS 道德规范的临时草案。在最初出版时,提出者主要隶属于美国大学、美国跨国公司和澳大利亚的一所大学,没有一位作者常驻亚洲。尽管观察家们注意到中国人工智能机构的道德声明有许多相似之处,但这种缺席是存在的。

另一方面,尽管美国和中国研究人员在伦理声明中存在这些相似之处,但在研究实践中仍存在具体分歧。两个社区之间的分离对个体研究人员、整个机器学习社区以及可能受 AI 研究影响的社会都有真正的影响。

最后研究人员表示,人工智能社区已经很久没有就如何克服这一障碍进行对话了。

众所周知,充分的学术交流可以促进技术发展,中美在 AI 领域内论文互相引用比例少的现象,一定程度上反映了两部分学者之间的隔阂。近年来,国内 AI 社区快速发展,形成了活跃的生态,但此类的现象仍然值得我们担忧。

在这其中,除了语言文化方面的问题,也有一些「不可抗力」。

12198fb9855f2d4a127a7f057b7ccc22.png
▲这位学者就抱怨有时候他们是主动避免交流。

看来想要改变这一情况,还有很长的路要走。

443ef81e77feafa95b2a5c6bbee98c32.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476665.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[导入][导入][c#]Web开发中Tag的开发技巧

http://onewww.net/blog/article.asp?id87网站开发常用关键字(tag),一般需要获得最多的被采用的Tag,也就是流行词。通常思路是将关键字tag保存到单独表中,然后在其他表中根据一组id进行对多个关键字进行标识。因为一个文章可以选择多个tag&a…

泰坦尼克号生存预测入门

文章目录1. 数据预览2. 特征初步选择3. 增加特征Sex和Embarked4. 选择随机森林调参5. 实践总结本文作为学习记录,参考 此处,如有侵权,联系删除。1. 数据预览 数据集下载 import pandas as pd import numpy as np from pandas import Series…

excel去重_数据处理之EXCEL的高效技巧分享

这是一个技巧贴,直接上干货:1、你想在excel中看到函数值是如何计算出来的?Ctrl~:进入函数视图2、去除重复值方式有哪些?a、数据—数据工具—删除重复值(以当前选定区域排序:只对选中区域去重;扩展选定区域…

泄露了 5.33 亿 Facebook 用户的个人资料后,Meta 被罚款 2.75 亿美元

文 | 兔子酱编 | 王思若大家好,我是兔子酱。多年前,Facebook曾被曝出一个大瓜——2018 年 5 月至 2019 年 9 月期间,不法分子利用 Facebook 的安全漏洞从 5.33 亿人的个人资料中窃取个人信息,包括电话号码、位置、电子邮件地址、生…

10月24日 多云

10月24号 多云 最近不知怎么了 突然很没有食欲 不到半夜不知道饿。 中午下楼吃饭,走了半天也不知道想吃什么,索性走进了一个菜市场,买了一个鸡架,打道回府。哦对了,路上还买了几个苹果,牙总出血&#xff0c…

程序员面试金典 - 面试题 04.09. 二叉搜索树序列(双端队列+回溯)**

1. 题目 从左向右遍历一个数组,通过不断将其中的元素插入树中可以逐步地生成一棵二叉搜索树。 给定一个由不同节点组成的二叉树,输出所有可能生成此树的数组。 示例: 给定如下二叉树2/ \1 3 返回:[[2,1,3],[2,3,1] ]来源:力扣&#xff08…

在央企做程序员是种什么体验?

源 | 程序厨今天在秀哥那里看到了这篇文章,个人感觉对一些想要进入央企的同学,有一些帮助,大家可以看一下,以下为正文。朋友校招加入了某垄断央企,在里面从事研发工程师的工作,下面将分享一些入职后的一些心…

pthread_create函数阻塞了主线程_5个状态,Python 中线程的生命周期

编 程 的 朝 圣 之 路----------------------------------------当程序中包含多个线程时,CPU 不是一直被特定的线程霸占,而是轮流执行各个线程。那么,CPU 在轮换执行线程的过程中,即从创建到消亡的整个过程,可能会历经…

ASP.NET AJAX入门系列(3):使用ScriptManagerProxy控件

在ASP.NET AJAX中,由于一个ASPX页面上只能有一个ScriptManager控件,所以在有母版页的情况下,如果需要在Master-Page和Content-Page中需要引入不同的脚本时,这就需要在Content-page中使用ScriptManagerProxy,而不是Scri…

程序员面试金典 - 面试题 16.04. 井字游戏(计数)

1. 题目 设计一个算法,判断玩家是否赢了井字游戏。输入是一个 N x N 的数组棋盘,由字符" ",“X"和"O"组成,其中字符” "代表一个空位。 以下是井字游戏的规则: 玩家轮流将字符放入空…

pygame render怎么显示中文_Pygame游戏——贪吃蛇(完结)

我们的贪吃蛇游戏基本功能已经实现,可以完成吃食物,吃到食物变长,得分增加,食物再次随机出现。但是我们有发现贪吃蛇可以穿到屏幕外面去,这显然是不合适的。这一次我们需要完善的是:游戏结束游戏结束后重新…

程序员面试金典 - 面试题 17.18. 最短超串(双指针+哈希)

1. 题目 假设你有两个数组,一个长一个短,短的元素均不相同。 找到长数组中包含短数组所有的元素的最短子数组,其出现顺序无关紧要。 返回最短子数组的左端点和右端点,如有多个满足条件的子数组,返回左端点最小的一个…

Symbian中不能跨越线程(RThread)使用的对象/组件(RSocket/Memery Heap,etc)

在Symbian C的编程中,出现一很多与Windows/linux用法与概念不同的东西。 首先,在Symbian中不建议多线程,因为线程的开销,也因为线程之间有很多东西不能传递与共享(虽然同一进程中不同线程也是在同一个地址空间中&#…

Diffusion卷向视频,谷歌CEO劈柴亲自“带货”

源|机器之心编|张倩、杜伟谷歌、Meta 等科技巨头又挖了一个新坑。在文本转图像上卷了大半年之后,Meta、谷歌等科技巨头又将目光投向了一个新的战场:文本转视频。上周,Meta 公布了一个能够生成高质量短视频的工具——Ma…

pmp知识点详解-项目大牛整理_PMP核心知识点—第四章:项目整合管理(一)

文章来源:科科过PMP作者:科科过PMP由知乎号“慧翔天地PMP”推荐如有侵权请联系小编看到后第一时间处理一、制定项目章程1Inputs⑴商业文件→商业论证:①记录项目目标以及项目对目标的贡献②决定项目的期望结果是否值得所需投资③包含商业需求…

程序员面试金典 - 面试题 17.15. 最长单词(排序+递归)

1. 题目 给定一组单词words,编写一个程序,找出其中的最长单词,且该单词由这组单词中的其他单词组合而成。 若有多个长度相同的结果,返回其中字典序最小的一项,若没有符合要求的单词则返回空字符串。 示例&#xff1a…

.net 2.0 制作 柱状图

最近项目需要用到图表,饼图,柱状图,这些都很常用,在网上找了下,不是自已要的,只好自已动手做个,先做了个柱状图,先看下效果图代码有详解下载代码 此代码在winform环境下编译通过,要用在web环境也简单,只需将Graphics对…

不卷大厂了,78位高校青年教师晒出工资

源|青塔人才综合自知乎、小红书今天,小编给大家搜罗了江苏、浙江、上海、广东、山东、北京、福建、广西、云南、陕西、川渝、中部、东北地区78位高校教师的薪资待遇,欢迎转发分享~江苏常四荒:普通高校,讲师…

牛客练习赛61 - A - 打怪

题目描述 你是一个勇士,现在你准备去森林刷毛球怪,你有两个属性(血量,攻击力),毛球怪也有这两个属性。 当你遭遇一只毛球怪时你们会进入战斗,然后你和毛球怪轮流攻击(你先手&#x…

javascript 的参数有长度限制吗?一个细节引起的误区

一个普通的javascrip函数&#xff0c;只有一个入口参数 function test(info) ... { alert(info); } 页面用是aspx代码生成&#xff0c;调用test函数的入口参数可能是一个很长的字符串&#xff0c;同时页面上根据一个数据集构造很多如下所示的标签。 < a href " jav…