本文为入门级的基因调控网络文章,主要介绍一些基本概念及常见的GRN模型。
概念:基因调控网络 (Gene Regulatory Network, GRN),简称调控网络,指细胞内或一个基因组内基因和基因之间的相互作用关系形成的网络,特指基因调控 (gene regulation) 导致基因之间的作用。
GRN是生物体内控制基因表达的机制,基因表达的主要过程是转录+翻译
GRN构建方法:
多数方法使用静态数据来分析基因网络,如基因表达矩阵,该矩阵是一个时刻的基因表达情况。实际上,我们需要考虑动态网络,这样才能逼近真实的GRN。
一些网络模型:
1、布尔网络
布尔网络是一种最简单的模型。布尔网络中,每个基因的状态只有“开”和“关”,“开”表示基因有表达,“关”表示基因未表达。基因间相互作用由布尔表达式表示:and, or, not,如 A and not B -> C。
该网络过于简化,存在局限。
2、线性模型
线性模型是一种连续的GRN模型。在线性模型中,一个基因的表达水平由若干其他基因表达水平的加权和表示,权是基因之间相互关系的定量化:正权表示基因激发,负权表示基因抑制,0权表示两个基因没有关系。
X(t+Δt)=∑w X(t)+η
该网络是一种简单的数学模型,只能处理具有线性关系的基因表达数据,应用范围小。
相关模型:加权矩阵模型
3、马尔可夫模型
马尔可夫链是一种随机过程,适用于分析时间序列的基因表达数据。在马尔可夫模型中,马尔可夫链假设某一时刻的基因表达水平决定了下一时刻的基因表达水平,公式如下:
C(t)=J C(t-1)
构建GRN过程中,基于马尔可夫模型对gene expression profile的特征提取和聚类都表现出良好的适应性。
如果要提高模型的准确性,可提高马尔可夫模型的阶数。
4、微分方程模型
微分方程模型假设一个基因为一个变量,由n个基因组成的网络可以由如下n维微分方程表示:
dx(t)/dt=f(x,x,…,x),x(t)是第i个基因的表达水平,n表示网络中的基因数。
根据生物数据和建模的不同要求,函数fi根据实际确定。通常有如下两种形式:
f(x,Θ,α)=xα/(x+θα)
fi(xj,α)=e/(1+e)
微分方程构建GRN的优点:强大灵活,有利于描述基因网络中的复杂关系。
5、贝叶斯网络模型
以贝叶斯定理和假设为理论基础,用有向无环图 (DAG) 的形式表示随机变量间的概率关系,网络中每个基因是一个节点,每个调控关系是一条边。
该模型可以处理随机事件,控制噪声,可以获得变量间的因果关系,在GRN模型中,贝叶斯网络比其他模型更有优势。
相关模型:神经网络模型,图解高斯模型
6、互信息关联模型
互信息关联模型用熵和互信息描述基因之间的关联。
一个基因表达模式A的熵,P(x)是基因表达值出现在xi的频率,n为表达水平的区间数目。熵越大,基因表达水平越趋近随机分布。
两个基因表达模式之间的互信息MI(A,B)=H(A)+H(B)-H(A,B),若MI(A,B)=0,则两个基因不相关,若MI(A,B)越大,两个基因越非随机相关,之间的生物关系越密切。
7、随机方程模型
......
构建GRN模型时可参考的一些经验:GRN是稀疏的,也就是并不是所有基因之间都有相互作用关系 [3];基因调控网络的大多数变量是连续的,粗糙的离散化会丢失信息,精细的离散化参数太多,最好直接用连续变量 [4];
Ref:
[1]. https://baike.baidu.com/item/%E8%B0%83%E6%8E%A7%E7%BD%91%E7%BB%9C/5844691
[2]. https://wenku.baidu.com/view/34dff5ef19e8b8f67c1cb958.html
[3]. Maetschke S R, Ragan M A. Characterizing cancer subtypes as attractors of Hopfield networks[J]. Bioinformatics, 2014, 30(9): 1273-1279.
[4]. 雷耀山,史定华,王翼飞.基因调控网络的生物信息学研究[J].自然杂志,2004(01):7-12.