注:从进入生信领域到现在,已经过去快8年了。生物信息学包含了我最喜欢的三门学科:生物学、计算机科学和数学。但是如果突然问起,什么是生物信息学,我还是无法给出一个让自己满意的答案。于是便有了这篇博客。
起源
据说在1970年,荷兰科学家Paulien Hogeweg和Ben Hesper最早在荷兰语中创造了"bioinformatica"一词,英语中的"bioinformatics" 在1978年首次被使用。这两位科学家当时使用该词来表示:
该定义中有两个关键词:生物系统(biotic systems)和信息过程(information processes)。但是这里的"信息过程"不太好理解。
此外,从该领域的著名期刊——"bioinformatics"期刊名称的变化也可以从另一个角度来考证"生物信息学"这个词的接受程度。"bioinformatics"创立于1985年,改名前的期刊名为:Computer Applications in the Biosciences (CABIOS)同时也是国际计算生物学会(the International Society for Computational Biology, ISCB)的会刊,在1998年改为现在的名字。
各个不同时期的定义
wiki
【定义1】首先看一下维基百科对生物信息学的解释:
这里的定义强调交叉学科以及对生物学数据的理解,认为最主要的生物学数据是DNA、RNA和蛋白质的序列数据。并指出生物信息学最重要的目标是增加对生物过程的理解。
2000年
【定义2】下面是NIH Biomedical Information Science and Technology Initiative在2000年给出的定义:
该定义强调计算工具和方法(相当于软件和算法),以及数据的采集、存储、组织、存档、分析和可视化。该定义在2012年还被冷泉港实验室的一个下属机构在一篇介绍生物信息学的博客中引用过。
2001年
【定义3】2001年,人类基因组计划还没有完成。下面是2001年发表的一篇标题为"What is bioinformatics? A proposed definition and overview of the field"的论文中的解释:
这里的定义强调生物大分子和数据的规模。认为生物学数据主要包括大分子的结构数据、基因组序列和功能基因组学实验数据(如表达数据等),此外还包括科学论文数据(可以进行文本挖掘)以及来自pathway等地方的关系数据(相互作用)。
该文章的作者从宽度(数据量的变化)和深度(不同生物学过程中的不同大分子)两个维度对生物信息学中包含的主要问题进行了分类:
图1:The Bioinformatics Spectrum, from http://bioinfo.mbb.yale.edu/what-is-it/
从宽度(信息学的角度)上来说,随着数据量的增加(从一条序列到多条序列),提出的问题也不一样,需要用到的算法和工具也不一样;从深度(物理学的角度)上来说,不同的生物学对象(DNA、蛋白质序列)在各个生物过程(蛋白质的折叠,发生于蛋白质表面的相互作用等)中执行着不同的功能。
该文章的作者还定义了"组学"的概念:
各种不同的组学列表(OMES TABLE):http://bioinfo.mbb.yale.edu/what-is-it/omes/
【定义4】下面是网站bioplanet在2001年给出的定义:
该定义中的生物信息(biological information)可以理解为生物数据,强调数据的采集、存储、分析和整合。最后还给出了生物信息学的应用:基于基因的药物开发。该定义直到2017年,还有其他网站引用。
2005年
【定义5】以下是网站TechTarget给出的定义:
该定义强调数据库和算法,且提到了伦理学。
【定义6】下面是英属哥伦比亚大学THE SCIENCE CREATIVE QUARTERLY上面的一篇文章给出的定义:
这篇文章的定义也强调了数据库的重要性并给出了原因:一段基因组序列本身的信息是有限的,需要与其他已注释序列进行比较来研究其功能(例如利用Blast软件在公共数据库GenBank中注释一段新的DNA序列)。在当时(05年)已经有许多科学家提出"系统生物学"是下一个阶段的生物信息学。此外,文中提到:"对于任何系统(从单个细胞到整个生态系统),只要其信息可以数字化,生物信息学在该系统就可能有用武之地"。生物信息学之于分子生物学,就像显微镜之于细胞生物学。
这篇文章还给出了很多有价值的观点:
- 生物信息学不仅仅可以作为工具来解决问题,也应该被当成一种科学方法来提出新的和不同类型的生物学问题;
- 尽管生物信息学依赖于技术,但是所有的生物信息学实验还是被生物学问题所驱动;
- 一些可以用生物信息学来处理的重要生物学问题:理解基因型-表型在人类疾病中的关联,理解蛋白质结构与功能之间的关系,理解生物网络;
- 生物信息学的进步也依赖于生产数据的工具和技术(例如新的更便宜的测序技术,高通量生物芯片技术,更精确的质谱技术等)的进步。
2010年
【定义7】下面两个定义收录于圣地亚哥州立大学(San Diego State University)计算机科学与生物学教授Dr. Robert Edwards的一篇博客中:
上面的定义中提到了统计学和计算机科学在分子生物学领域的应用,以及数据模型和可视化。生物信息学领域早期的前辈们有很多都是从遗传学转过来的。
2011年
【定义8】据说是生物信息学领域最大的专业网站Bioinformatics.org,按照生物信息学发展的不同阶段,对生物信息学的研究内容作了介绍:
生物信息学最宽泛的定义会包含DNA序列或乳房X光片等数据,因此也可以包含医学图像处理的内容。但是平时用到的生物信息学指定的范围要窄的多:主要是指计算分子生物学。
从信息学的角度来看,会强调包含在生物数据中的信息(数据 - 信息 - 知识):
前基因组时代的生物信息学基本上就是指序列分析:
后基因组时代的生物信息学发生了很大的变化:研究重点从基因本身到基因产物的转移,以及对生物医学实验数据的分析。
此外该网站还特别提到了生物学与计算机科学之间奇妙的关系:生物大分子通常由结构简单的单体聚合而成(这点与计算机中用一些简单的语法编写一个具有独立功能的软件非常相似);以及生物学对计算机科学的启发,例如遗传算法、(人工)神经网络的结构等。
2013年
【定义9】阿肯色大学小石城分校(University of Arkansas at Little Rock, UALR)在BIOINFORMATICS PROGRAM中对生物信息的解释:
该定义从5个不同的方面,对生物信息学进行了解释:
- 建立在计算机和信息学科之上的生物信息学,侧重于数据的采集、存取、分析及可视化;
- 建立在计算生物学之上的生物信息学,侧重于数据分析和理论方法的开发,以及数学模型和计算机模拟技术在生物学研究中的应用;
- 建立在生命科学和医学之上的生物信息学,侧重于医学信息数据和各种不同的组学数据的分析;
- 建立在基础科学之上的生物信息学,侧重于在更基础的层面(化学结构、生化过程等)对生物学数据进行解释;
- 建立在数学和统计学之上的生物信息学,侧重于对大量、不同类型的复杂数据(例如高维数据或高度异质性的数据)进行分析;
从上面的定义来看,更加凸显了生物信息学的交叉学科属性。
2017年
【定义10】生物信息学家Dr. Maria Nattestad用下面的话向非科学家介绍自己的工作:
在一篇博客中,她将生物信息学与数据科学进行了比较,发现它们非常相似:
图2:生物信息学 vs 数据科学
按照上图的理解,生物信息学就是一种特别的数据科学。Dr. Maria Nattestad认为生物信息学非常有趣的原因之一是:该学科聚集了不同领域的人,这些人带着不同的背景和倾向,使用不同的方式来思考生物学问题。她将生物信息学分成了以下三个部分:
2018年
【定义11】2018年是瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)建立20周年。在其官网上对生物信息学的定义如下:
相对于其他定义,这里强调对数据的高效利用,以及对生命科学大数据的处理。
下面是SIB定义的生物信息学的研究内容:
【定义12】下面是宾夕法尼亚州立大学的生物信息学教授István Albert,在他的书《The Biostar Handbook: A Beginner's Guide to Bioinformatics》中对生物信息学的定义:
上面的定义非常简洁,将生物信息学看做是数据科学,研究生物体中的信息如何保存和处理。
该书的介绍部分,讲了生物信息学的变化过程:
2005年左右,二代测序仪的出现,让生物信息学进入了大数据时代。
下面是作者的进一步追问:到底什么是生物信息学?
看到同样有人在该领域工作快10年,但还是搞不清楚什么是生物信息学,我就放心了。这里特别强调了数据量,并且最后说生物信息学就是在大海捞针的艺术。
这里推荐一下给作者的这本书,可以作为生物信息学的入门书来看,而且不止我一个人推荐该书,微信公众号"生信媛"的创建人得到授权后翻译了本书,在下面的文章中可以找到所有内容的链接:
英文版:https://www.biostarhandbook.com/
中文版目录:http://blog.sciencenet.cn/blog-3334560-1078097.html
我的定义
上面介绍了自生物信息学这个词诞生后,从2000年到2018年之间的12个不同的定义。从总体上来看,最开始的定义更强调数据的采集、存储和获取等过程,更偏向于计算机科学;随着相关检测技术和生物数据分析基础平台的发展和完善,现在的定义更多的强调从整体上对数据进行整合分析以及高通量实验带来的大数据的挑战,更偏向于系统生物学。
下面是我基于自己的理解,给生物信息学下的定义:
生物信息学是围绕生物数据展开的,因此与数据科学有着天然的紧密联系。生物数据是各种检测仪器(测序仪、质谱和电镜等)对不同的生物过程进行量化时产生的。生物过程以各类生物大分子(DNA、RNA、蛋白质、多糖等)或小分子代谢物以及肠道菌群等与人体共生的微生物为基本的结构和功能单位,主要包括这些基本单位的新陈代谢(合成与分解,物质与能量的相互转化)和相互作用(信息的交流,即调控)。生物信息学就是利用统计或机器学习等数据科学领域的方法对生物数据进行分析和解释,从静态(结构和功能,细胞内的定位等)和动态(调控,转运等)两个方面来研究生物过程的科学。
为了完成上述任务,大致可以分为三个步骤:数据的管理(已有数据的注释、存储、检索和数据交换,以及新数据的提交);数据分析工具的开发;工具的使用以及对结果生物学意义的解释。我非常认同Dr. Raunak Shrestha在他的博客中的说法:生物信息学的终极目标是在分子水平理解一个活细胞是如何工作的。
如果要问我最喜欢哪个定义,除了我自己的定义之外,我最喜欢在一段视频中看到的定义:Bioinformatics: Where code meets biology.
Reference
https://en.wikipedia.org/wiki/Bioinformatics
http://bioinfo.mbb.yale.edu/what-is-it/
https://searchoracle.techtarget.com/definition/bioinformatics
https://edwards.sdsu.edu/research/what-is-bioinformatics/
https://www.scq.ubc.ca/what-is-bioinformatics/
https://tse3.mm.bing.net/th?id=OIP.G1tK2zPG0f3T71ITT84G3wHaHo&pid=15.1
https://www.bioinformatics.org/wiki/Bioinformatics
http://omgenomics.com/what-is-bioinformatics/
https://www.sib.swiss/about-sib/what-is-bioinformatics
https://www.sib.swiss/about-sib/what-we-do
https://raunakms.wordpress.com/2010/06/05/what-is-bioinformatics-%E2%80%93-a-general-perspective/
https://www.youtube.com/watch?v=mWbuVlIX5jg