对于从事学术研究的人来说,跟进最新的论文是必备的科研素质之一。但面对海量的论文更新,应该如何快速又有效地阅读论文,吸收其精华? KyleM Shannon 为我们提供了一份论文阅读经验总结,包括了系统的阅读方法,以及一份阅读论文时应该带着的问题清单。希望看完的各位,下次阅读论文时不再“瑟瑟发抖”~
作者 | KyleM Shannon 编译 | Xiaowen 整理 | 专知
添加微信:MLAPython,备注(姓名-单位-方向)
即可加入机器学习交流群
Guideto Reading Academic Research Papers
——学会用系统的方法来处理这个辛苦的过程!
从事数据科学和机器学习是一个令人兴奋且具有挑战性的领域。新的技术和工具不断地渗透,老实说,它让人难以抗拒。许多新的发现首次在学术研究领域中被揭示,但从这些学术文章中提取知识是有一定困难的,因为这些论文的目标读者是其他研究人员。然而,紧跟科研热点,阅读最新论文是一项必不可少的技能。幸运的是,我们可以通过勤奋和实践加以改进。
在研究生院学习时,你在阅读论文和研究方面会变得越来越好,但并不是每个人都能接受这种技能的训练。然而这也并不意味着你无法从这些论文的知识中受益。
我看论文的方式不是很特别,但它很有效,对我很有帮助。请记住,这不是唯一的方法,读论文仍有许多技巧存在,随着你阅读的广泛和深入,我相信你会发现你自己独特的风格。
本指南分为以下几个部分:
1. 学习论文阅读这种技能相当有用!我保证
2. 我听说读一篇论文是很困难的。为什么?
3. 论文通常是如何组织的?
4. 我阅读论文的“bullet proof”方法
5. 工具可以帮助你更好地完成工作
我们为什么要阅读论文?
阅读论文很困难,但没有别的方法。机器学习、深度学习、数据科学、数据库和数据工程等领域的进步往往以学术研究的形式出现,学术论文的语言就是学术研究。想象你可能会用到的一些技术,比如CNN,PCA,AdaBoost,这些都是出自研究成果,并且都有论文发表。另外,考虑到有很多关于这些技术的应用的论文,当你试图解决一个具体的问题时,这些论文很关键。除了保持跟进最新的研究论文之外,也值得回到过去,把旧的论文读一遍,你会学到的很多。
从深度学习的领域来看,似乎每隔几天或每周就会有一篇新的论文出来。唯一的办法就是抓住它,把它读一遍。
出现困难的地方是哪里?
这是Hubbard 和 Dunbar 2017年发表的一篇科学论文中的一幅图,关于阅读科学论文的。
科学论文的不同部分的易读性和重要性在学术生涯的不同阶段是有区别的
A:参与者认为容易阅读的部分(表示为“有点容易”,“轻松”“非常容易”)的比例是学术阶段的函数。卡方测试的结果显示在左手边。
B:段落的平均重要性等级是学术阶段的函数。为了清楚起见,从个别点省略错误栏。灰色错误栏表示任何数据点的最大95%置信区间。
一个不令人惊讶的结果表明,学术越深入他们的职业生涯,他们就越容易找到论文的每一部分来阅读。方法(Methods)、结果(Results)和图片(Figures)似乎非常重要,表面上是因为作为学者,他们在自己的领域拥有更高的技能,允许他们批评论文的方法部分。这也意味着他们非常了解自己的领域,因此,引言和摘要就不那么重要了。早期的博士生发现这些方法、结果和图片是很难理解的,这是完全有道理的,因为这是论文中需要一个领域中知识最多才能理解的领域。我猜你可能有类似的经历。
到底是什么让这个过程如此困难和耗时?
作者倾向于假设读者具有较强的背景知识
学术语法密集,因此读者很难理解
数学表达式通常被压缩,方程被重新排序以求简洁,经常跳过某些步骤
如果读者读过被引用的论文,就会填补大量的知识空白
并非所有的结论都是正确的。样本数太少,糟糕的研究设计,研究者的偏见,和选择性的报告都有可能影响实验结果。
显然,在阅读一篇论文时,有很多事情要考虑。
想想看,你读的论文越多,你就会学得越多,阅读的过程也就越快。趋势开始浮出水面,你开始洞察科学方法,了解某些作者和小组在研究什么,并对你正在学习的领域慢慢欣赏起来。随着时间的推移,所有这些知识和技能都会让你更快、更高效、更成功地阅读论文。
论文的组织方式
关于这个部分,一个好消息是,绝大多数文章或多或少都遵循同样的组织惯例:
标题(Title):希望吸引人,可能很性感!包括关于作者和他们的机构的更多信息。
摘要(Abstract):高级浓缩的概述。
导论(Introduction):本论文的研究背景及相关研究。
方法(Methods):非常详细地介绍所进行的研究、如何建立、使用的任何工具以及最后的过程和工作流程。
结果(Results):作者讨论了所创建或收集的数据,应将其理解为对所发生情况的公正描述。
讨论(Discussions):作者在这里解释结果,并说服读者认同他们的发现和假设。
参考文献(References):正文中引用的任何其他工作都会出现在这里。
附录(Appendix):在附录中可以找到更多的图片、相关数学的其他处理方法或额外感兴趣的内容。
制定系统的方法
当你坐下来阅读的时候,有一个计划是很重要的。从第一页开始读到最后可能对你没有好处。除了保留有限的信息,你会精疲力竭,付出巨大的努力也没有什么收获。这就是很多人停止阅读论文的原因。
一定要花3到6个小时的时间来真正消化一篇论文,记住它们是非常密集的!做好准备,并且愿意多读几次,每次都提取和理解不同的信息。记住不要第一次就从头一字一句地读到尾。
以下是两个清单。一个是我在阅读一篇论文时所采取的系统方法,另一个是我在阅读论文时试图回答的一般问题。我通常会根据论文添加更多的具体问题。
我们开始吧!
清单一:系统阅读论文的方法
1. 试着找个安静的地方呆上几个小时,拿上你最喜欢的饮料(可能是咖啡,茶,或者别的什么东西)。我经常在咖啡厅里工作。
2. 从阅读标题和摘要开始。目的是获得论文的高层次概述。作者的主要目标是什么,以及一些实验结果。摘要通常会为论文的目的提供一些线索。
3. 花大约15分钟浏览一下文章。快速看一看图片,在阅读文字时注意任何要注意的关键字。试着了解一下论文的布局和位置。稍后你会在不同的章节和页面之间来回切换,这有助于知道内容的大概位置。尽量不要花时间做任何笔记或高亮/下划线。
3. 把你的注意力转到导论(Introduction)上。我对这篇论文/领域越不熟悉,我在导论中花的时间就越长。作者往往能很好地整合背景信息,并提供大量的参考资料。这部分通常是最容易阅读的,感觉就像你在阅读一本教科书。记下你不知道或想进一步研究的其他参考资料和背景信息。
4. 这部分非常关键。仔细检查每一张图片,试着对它们呈现给你的信息有一种感觉。当我还是个本科生的时候,我的神经科学导师给了我一些很好的建议。释义:图片包含了一篇论文中最重要的一些信息。作者花费了大量的时间来创建它们,并认为它们所包含的信息非常重要,足以通过视觉与读者交流。请特别注意它们。当你第一次浏览这些图片时,你不会很好地理解它们,但是你会对作者认为最重要的东西有一些了解,同时还会在阅读其他章节时透露关于应该注意什么的宝贵信息。
5. 到目前为止,你可能已经花了大约一个小时。休息一下,去吃个牛角包什么的。
6. 现在你已经做好了第一次通读论文的准备。这一次你应该开始做一些高水平的笔记。你会遇到一些对你来说不一样的语言和想法。不要在每件没有意义的事情上停下来,你可以简单地标记它并继续前进。我们目标是花大约一个半小时通读全文,而不是被各种细节困住。第一关的目的是要熟悉文章。你要了解这篇论文,问一些好问题。再从摘要开始,快速浏览导论。注意整体实验设置,方法部分包含了大量的细节,在这一遍上你不需要仔细检查每个部分。最后,阅读“结果和讨论”一节,目的是确认一些关键的发现以及如何确定这些发现。记住,作者试图让读者相信他们工作的价值和发现。
7. 休息一下,跳一跳什么的……
8. 现在,您已经很好地了解了这篇论文,接下来你将深入了解图表的细节。在阅读了方法、结果和讨论部分之后,你应该能够从图中发现更多宝藏。在这些图片上多花30分钟到一个小时。
9. 你应该有信心第二次通读论文。这一次你会用非常批判性的眼光阅读。这一关可能需要一到两个小时,你也可以把它留到一天的晚些时候,或者第二天。特别注意那些你标记为很难理解的区域。请并确保你理解每个句子。这一关你是在真正学习论文。讨论部分是你可以从阅读这篇论文中学到的东西,并将它与作者提供的证据和他们的推理进行权衡。这个部分应该会引发一些有趣的问题,让你去问你的朋友或同事。你甚至可以用一个有洞察力的问题给论文的作者发电子邮件!
9. 与同事谈论这篇论文,批判性地思考结果,并能够将这项工作与该领域的其他研究进行比较(如果你读过其他论文)。为了保留和执行你所学到的知识,我建议你写一些这篇论文相关的东西。它可以只是关于你学到的东西和结果的意义的几段话。当你阅读文章时,可以参考你正在回答的问题清单。
清单二:读论文时的一般问题
如上文所述,以下是一个问题列表。如果你可以回答这些问题,那你对论文已经有扎实的了解。
1. 本文之前的研究和想法是建立在什么基础上的?(这一信息往往存在于导言中)。
2. 是否有理由进行这项研究,如果是的话,是什么?(导言部分)
3. 清楚列出研究的目标。
4. 是否使用了任何设备/软件?(方法部分)
5. 在实验中测量了哪些变量?(方法部分)
6. 是否使用统计测试?其结果如何?(方法/结果部分)
7. 主要发现是什么?(结果部分)
8. 这些结果如何与其他研究及其“领域”的上下文相吻合?(讨论部分)
9. 解释每一个图片并讨论它们的意义。
10. 结果能被复制吗?有没有可用的代码?
11. 论文的作者、年份和标题的名字!
12. 是否有任何作者熟悉,你知道他们以前的工作吗?
13. 我不知道哪些关键的术语和概念,我需要在字典、教科书或询问别人时查阅这些术语和概念?
14. 你对结果有什么看法?它们看起来有效吗?
我建议你亲自或在网上找人讨论这篇论文。建立一个期刊俱乐部,目标是一个月完成1-2篇论文。我从与朋友讨论一篇论文中获得的额外信息是巨大的。记住,唯一比独自忍受一篇论文更好的事情,就是和朋友一起受苦:)
在另一个笔记中,有一篇很好的文章,是Keshav写的关于如何阅读一篇论文的文章[1]。他介绍并探索了一种可能对你感兴趣的三短语方法。也请读一读!
一些有用的工具
你可以从以下几个来源找到论文:
arXiv:是一个开放存取的资料库(康奈尔大学维护),你可以自由地下载和阅读很多领域的印前研究论文。
PubMed:有一个强大的搜索功能,如果你正在寻找医学或生命科学相关的论文的话。
Google Scholar:我使用谷歌学术,就像我使用google一样。只要搜索一个主题、作者或论文,谷歌就会开始工作,就像谷歌所说的 “谷歌学者提供了一种简单的方法来广泛搜索学术文献。从一个地方,你可以搜索许多学科和来源:文章、论文、书籍、摘要和法院意见,从学术出版商、专业学会、在线存储库、大学和其他网站中搜索。谷歌学术帮助你在学术研究领域找到相关工作。”
社交媒体:我发现了很多新的论文,途径只是通过follow几个积极发表文章的人的社交媒体账号。他们通常会推送其他他们觉得有趣的论文,而你正好可能想知道或读这些文章。
朋友和同事:找到和你一样感兴趣的人,和他们一起读论文,互相学习。我从朋友那里得到好的论文的推荐。他们是很好的过滤器。
大学:去当地的学院或大学(如果附近有),你可以访问图书馆、图书馆员(非常有用的搜索向导!)
当你开始阅读更多的论文时,你会想把它们存放在某个地方。把pdf扔到你驱动器上的文件夹里是很好的,但也有一些令人不舒服的地方。大多数研究人员和研究生都使用参考资料管理器。Zotero和Mendeley非常受欢迎,我喜欢Zotero。最近,我一直在使用PaperPile。我喜欢PaperPile,因为它是个轻型工具,直接在我的浏览器里。使用Google驱动器备份和存储我所有的pdf。它有一个简单的用户界面,以及有一个非常好的标签和文件夹层次系统。我也可以在我的浏览器中注释pdf,并在我写的时候构建引用列表。你几乎可以使用任何引用管理器获得很多这些功能,但我碰巧最喜欢PaperPile。
参考资料管理器会很快成为你最好的朋友,因为你可以收集和阅读越来越多的论文。
谢谢你阅读这篇文章。我希望你发现它对你有帮助,在处理下一篇论文时它给了你一些好的想法。大多数人在阅读一篇论文时都有自己独特的过程。我相信你会及时做出自己的调整,希望这是一个很好的模板可以让你开始阅读论文。
原文链接:
https://towardsdatascience.com/guide-to-reading-academic-research-papers-c69c21619de6