两个月,刷了八千篇Arxiv,我发现……

文 | 白鹡鸰
编 | 小轶

从五月初到现在,大约刷了八千篇Arxiv之后,我发现我有毛病。

当然,这是读论文上头时的牢骚,不是真心话,只是说,我在Arxiv上投入的精力的努力,与我预计的收获不成正比。

故事的起因是这样的:

作为一个博一的萌新,学校和导师不会直接让你上手科研,而是先上上课,确保来自不同学校的同学们能够拥有相近的知识背景,互相认识认识。但是,当你的日常是上课的时候,看着学长学姐们学术讨论,实验跑得风生水起,人总是会慌的。

“天呐我已经是一个成熟的研究生了,为什么每天还像本科生一样课课课,我也要搞科研!“

然后想想除了课程和作业报告,似乎确实没什么整块的时间可以静下心来研究,最可行的只有每天看看论文了。下定决心的时候是5月,由于各种课程的大作业开始陆续下发,最终,实际能干的事情,就是通过RSS订阅[1],开始遍历Arxiv和一些领域相关Journal的论文。

在开始做这件事情的时候,我充满了干劲和对论文的美好期许:

“每天能够接触到所有研究者最新的idea和发现,我就是时代的弄潮儿!“

“那么多新发的方法,研究与研究之间都是相通的,可以把数理领域的前沿成果拿过来实现我们领域的研究问题,这效果绝对杠杠的!“

“顺带还可以练一练英语速读能力,文科理科两手都抓,太机智了!“

现在回头望去,我就像个戏台上的老将军——浑身插满了Flag。

Arxiv是北京时间每天上午九点更新,美国时间的周末不更新。我订阅了CS领域下 人工智能 AI,机器学习 ML,计算机视觉 CV,信息理论 IT 四个方向的论文。平均每天加起来这些领域会更新150篇上下,周一会更多一点,因此我每周大约会接收到800~900篇论文推送。5月到7月中旬,加起来推送的总量必然有8k以上。

作为一个理智尚存的成年人,我采取的策略是首先速览题目,对于研究相关的、或者看起来很有意思的文章,瞅一眼Abstract。如果Abstract挑不出毛病,再打开原文更详细地阅读。

  • 综述类文章:这类文章的价值是介绍一个方向的研究进展和前沿技术,并总结研究难点痛点,几乎不具有创新性。写得好的往往会直接投稿给期刊,因此在Arxiv上出现频率不高。一篇好的综述除了方法,更重要的是指出有待研究的空白。因此,对于只是罗列方法,总结不足的综述我都不会进一步阅读。

  • 理论/观点型文章:显然,这类文章最重要的就是它的观点和论证过程。一定要搞清楚文章的假设是哪些,限制在哪,如果不合理的话就不用看下去了。论证一般要么靠逻辑,要么靠公式推导,想很快把公式搞懂显然是不现实的,但可以看看是基于哪些数学方法来决定是否值得细看。

  • 方法型文章:这类文章的常见结果中包括“我们做到了xxx方面的SOTA”,但是,模型的评估指标有哪些,和什么样的参考如何比较得出了这个SOTA,往往暗藏玄机。所以,看一眼模型构造,如果不是眼熟的缝合怪,再看一下实验,实验没有太大问题,再瞄一眼结果,到底进步了多少,有没有机理分析。这些全齐活了,文章的具体方法才可能具有可信度。

浏览方法是合理的,实施过程是痛苦的。我看到了五花八门标题美丽,开头让人心神荡漾,实验结果或者方法一言难尽的文章。还有些投稿,只描述了作者想达到的效果,方法刚写了一小段,实验还没跑,导致我最终养成了开文章先看眼页数,免得被画饼欺骗感情的好习惯。

这两个月里,各式各样的SOTA我见了上百篇,近期的few-shot,explanable AI,看起来都是研究热点。然而最终,这大约8k篇的论文中,我挑挑拣拣,目前下载导入Mendeley打算好好研究的只有不到100篇。这样做的时间成本是多少呢?

  • 假设每天我稳定读了150个标题,这大约需要半个小时。

  • 这150个标题中,有10篇能引起我的兴趣,我花十五分钟,过了一下它们的摘要。

  • 作为一个新手,我对于摘要的判断能力还不是很强,因此,这10篇文章中我需要仔细地阅读5~8篇文章的intro,result,conclusion。这至少需要半个小时。

  • 最后,由于我连续读了这么久文章,我奖励自己就地躺平一刻钟。

所以,在Arxiv上刷文章,我每天需要花一个半小时左右,能够获取1~2篇可能有价值的文章。 而作为一个新手,我的研究嗅觉未必足够灵敏,也就是说,在这些决定精读的这些文章中,有50%以上的概率,在继续阅读1~2小时之后,我仍将一无所获。而 如果利用这些时间有目的地定向搜索特定领域的文章, 参考文章的引用量,我将更可能在同样的时间内了解更有价值的研究成果。

在Arxiv上,作为一个研究领域的新手面临的问题是选择太多了,难以甄别有效信息。最初我试图从数理领域获得新的方法的设想并不成功。数理领域的breakthrough出现概率并不高,而且,想要将其他领域的方法迁移到自己的领域,一方面,获取方法的时间成本会成倍地增长;另一方面,踩雷的风险绝不低。

作为一个能够流畅读写论文的研究生,绝对不要指望用Arxiv能对英语水平有多少提升。 很简单,因为Arxiv上的论文,在没有经过会议和期刊对语言的筛选打磨时,英语质量着实参差不齐。目前英语词汇量在1w左右的我感受到的瓶颈,主要来自词汇的使用不够多样化导致的语言生硬,以及做不到快速逐行阅读。而论文能让人锻炼快速阅读的部分并不多,很多内容都是要边思考边看的。论文作者也未必是Native speaker,很可能写文章的时候也词穷。对于这个个人问题,最近摸索的结论是,看CNN和BBC的新闻,对语言的提升效果远好于读论文。

总而言之,Arxiv上良莠不齐,对于研究领域的新手(博一博二及以下)来说,并不应该以刷Arxiv作为信息获取的主要渠道。我的导师在听说我的计划的时候,曾经劝阻过我:

“你现在不应该大量漫无目的地阅读文献。而是应该努力寻找可能给你提供新的研究灵感,或者教会你研究方法的论文。“

也就是说,搜索特定词条下的论文和Tutorial对我这个阶段的研究生帮助会更大。Arxiv在现阶段更适合作为检索是否存在idea撞车的数据库,而非图书馆。至于领域中的老手,刷Arxiv的时间成本应该显著降低(很多方法只要大致浏览就能理解),但若要紧跟研究潮流,每天1~2小时的阅读应该还是少不了的。具体细节,就等我能看到他们眼中的风景时再来和各位分享吧。

不过呢,Arxiv上乐子还是不少的。可以这么说:如果回到两个月前,我不会开始刷Arxiv;但在经历这么多痛苦,逐渐摸索到一些门道之后的现在,我还是打算继续刷下去的。希望接下去,Arxiv能提升我甄别论文的能力,此外,我会对有价值的论文做一些笔记,从而提升自己的理解概括能力。

本文描述的读文献方式“导师见打”,非搞笑人士请勿模仿!

萌屋作者:白鹡鸰

白鹡鸰(jí líng)是一种候鸟,天性决定了会横跨很多领域。已在上海交大栖息四年,进入了名为博士的换毛期。目前以图像语义为食,但私下也对自然语言很感兴趣,喜欢在卖萌屋轻松不失严谨的氛围里浪~~形~~飞~~翔~~

知乎ID也是白鹡鸰,欢迎造访。

作品推荐:

  1. NLP太卷,我去研究蛋白质了~

  2. 谷歌40人发表59页长文:为何真实场景中ML模型表现不好?

  3. 学术&工业界大佬联合打造:ML产品落地流程指南

寻求报道、约稿、文案投放:

添加微信xixiaoyao-1,备注“商务合作”

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1].^RSS (Really Simple Syndication) 是一种消息来源的格式规范,网站可以按照这种格式规范提供文章的标题、摘要、全文等信息给订阅用户,用户可以通过订阅不同网站 RSS 链接的方式将不同的信息源进行聚合,在一个工具里阅读这些内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478295.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习在美团的应用

近年来,深度学习在语音、图像、自然语言处理等领域取得非常突出的成果,成了最引人注目的技术热点之一。美团这两年在深度学习方面也进行了一些探索,其中在自然语言处理领域,我们将深度学习技术应用于文本分析、语义匹配、搜索引擎…

LeetCode 315. 计算右侧小于当前元素的个数(二叉查找树二分查找归并排序逆序数总结)

文章目录1. 题目2. 解题2.1 二叉查找树2.2 二分插入2.3 归并排序1. 题目 给定一个整数数组 nums,按要求返回一个新数组 counts。数组 counts 有该性质: counts[i] 的值是 nums[i] 右侧小于 nums[i] 的元素的数量。 示例: 输入: [5,2,6,1] 输出: [2,1,1…

Python实现共现语义网络

Python实现共现语义网络:

领域应用 | 金融资管领域知识图谱的构建和应用

转载公众号 | DataFunTalk分享嘉宾:李渔 熵简科技 联合创始人编辑整理:唐汝佳出品平台:DataFunTalk导读:本次分享的主题是金融资管领域知识图谱的构建和应用,主要介绍如何运用大数据、AI这些技术手段,来帮助…

我分析了ACL21论文列表,发现对比学习已经...

文 | 花小花Posy小伙伴们,好久不见呀,小花又回来了!最近关注对比学习,所以ACL21的论文列表出来后,小花就搜罗了一波,好奇NLPers们都用对比学习干了什么?都是怎么用的呀?效果怎样呀&a…

2016,你最不应该错过的热门技术文章

本文首发在“美团技术团队”微信公众号,内容已覆盖截止至2017年1月23日最新的技术文章。 1955年3月15日,爱因斯坦给刚去世的密友Michele Besso家人的信中说: “像我们这样信仰物理学的人都知道,过去、现在和未来之间的分别只不过是…

LeetCode 629. K个逆序对数组(DP)

文章目录1. 题目2. 动态规划3. 优化的DP1. 题目 给出两个整数 n 和 k&#xff0c;找出所有包含从 1 到 n 的数字&#xff0c;且恰好拥有 k 个逆序对的不同的数组的个数。 逆序对的定义如下&#xff1a;对于数组的第i个和第 j个元素&#xff0c;如果满i < j且 a[i] > a[…

快速的找出元素是否在list中 python

number [[1,2],[3,2]] num np.array(number) np.argwhere(num2) np.argwhere(num2) array([[0, 1], [1, 1]], dtypeint64) 注意&#xff1a;只能是维度相同的时候&#xff0c;才能用该方法。 om ragged nested sequences (which is a list-or-tuple of lists-or-tuples-or nd…

论文浅尝 | 知识图谱的神经符号推理(上)

笔记整理 | 叶橄强&#xff0c;浙江大学在读硕士&#xff0c;研究方向为知识图谱的表示学习和预训练。知识图谱推理是支撑信息提取、信息检索和推荐等机器学习任务的基础组成部分&#xff0c;并且由于知识图可以看作知识的离散符号表示&#xff0c;自然可以利用符号技术做知识图…

ICML2021 | Self-Tuning: 如何减少对标记数据的需求?

文 | 王希梅&#xff0c;高敬涵&#xff0c;龙明盛&#xff0c;王建民源 | THUML本文介绍ICML2021的中稿论文&#xff1a;Self-Tuning for Data-Efficient Deep Learning&#xff0c;就“如何减少对标记数据的需求”这一重要问题给出了我们的思考。论文标题&#xff1a;Self-Tu…

美团点评Docker容器管理平台

本文是郑坤根据第14期美团点评技术沙龙“你不知道的美团云”演讲内容整理而成&#xff0c;已发表在《程序员》杂志2017年1月刊。 美团点评容器平台简介 本文介绍美团点评的Docker容器集群管理平台&#xff08;以下简称“容器平台”&#xff09;。该平台始于2015年&#xff0c;是…

Python 获取本机或者服务器的 IP 地址

获取计算机名称 hostname socket.gethostname() 获取本机 IP ip socket.gethostbyname(hostname) print(ip) 具体操作 import socket hostname socket.gethostname() ip socket.gethostbyname(hostname) print(ip)通常使用 socket.gethostname() 方法即可获取本机 IP …

LeetCode 754. 到达终点数字(数学推理)

1. 题目 在一根无限长的数轴上&#xff0c;你站在0的位置。终点在target的位置。 每次你可以选择向左或向右移动。第 n 次移动&#xff08;从 1 开始&#xff09;&#xff0c;走 n 步。 返回到达终点需要的最小移动次数。 示例 1: 输入: target 3 输出: 2 解释: 第一次移动…

论文浅尝 | 神经符号推理综述(下)

笔记整理 | 许泽众&#xff0c;浙江大学在读博士3、神经驱动的符号推理相比于之前的两种类型&#xff0c;神经驱动的符号推理的目的是挖掘规则&#xff0c;而神经网络在其中扮演的作用是解决纯符号推理的不确定性&#xff0c;并且能够有效的减少搜索空间。这种类型的方法的基本…

Dockerfile构建python 运行项目运行环境

https://blog.csdn.net/qq_24487005/article/details/123380810 目录 构建思路 DockerFile脚本 环境文件解析 pip.conf sources.list openssl.cnf localtime install.sh startup.sh docker镜像构建 构建思路 1、把容器内需要用到的文件全部复制到容器中 2、设置一个工作目录&am…

没有导师指导,该如何自己选题发CVPR?

| 背景底层计算机视觉技术&#xff0c;如图像增强、图像复原等&#xff0c;一直以来都是一个重要且热门的研究方向。传统的方法多基于稀疏编码、小波变换等技术&#xff0c;近年来&#xff0c;深度学习的兴起为该领域带来了新的发展机遇&#xff0c;同时大幅度提升了方法性能。…

Android硬件加速原理与实现简介

在手机客户端尤其是Android应用的开发过程中&#xff0c;我们经常会接触到“硬件加速”这个词。由于操作系统对底层软硬件封装非常完善&#xff0c;上层软件开发者往往对硬件加速的底层原理了解很少&#xff0c;也不清楚了解底层原理的意义&#xff0c;因此常会有一些误解&…

LeetCode 482. 密钥格式化

1. 题目 给定一个密钥字符串S&#xff0c;只包含字母&#xff0c;数字以及 ‘-’&#xff08;破折号&#xff09;。N 个 ‘-’ 将字符串分成了 N1 组。给定一个数字 K&#xff0c;重新格式化字符串&#xff0c;除了第一个分组以外&#xff0c;每个分组要包含 K 个字符&#xf…

暑期学校 | 东南大学2021年国际暑期学校项目:从感知理解到智能认知 (知识图谱及应用课程)...

国际暑期学校开课啦 项目介绍 从感知理解到智能认知——走近新一代人工智能From perceptual understanding to intelligent cognition-Approaching a new generation of AI本项目是由东南大学计算机科学与工程学院、软件学院、人工智能学院组织&#xff0c;通过开设人工智…

The command ‘/bin/sh -c apt-get install -y vim’ returned a non-zzero code: 100

最近在学习docker时&#xff0c;发现使用ubuntu构建镜像时&#xff0c;如果有apt-get install命令&#xff0c;老是出现以下错误&#xff1a;The command ‘/bin/sh -c apt-get install -y vim’ returned a non-zzero code: 100 查了一下&#xff0c;发现很多人都说是使用ubun…