计算基因组学的目的是从高维基因组数据中提供生物学解释和见解。一般来说,它与任何其他类型的数据分析工作类似,但通常进行计算基因组学需要特定领域的知识和工具。
计算基因组学的目的是从高维基因组数据中提供生物学解释和见解。一般来说,它与任何其他类型的数据分析工作类似,但通常进行计算基因组学需要特定领域的知识和工具。随着新的高通量实验技术的兴起,数据分析功能成为研究人员追捧的功能。本章的目的是首先让读者熟悉数据分析步骤,然后提供基因组数据分析背景下的 R 编程基础知识。
R 是一种免费的统计编程语言,在研究人员和数据挖掘人员中很流行,用于构建软件和分析数据。尽管基本的 R 编程教程很容易获得,但我们的目标是在背景中以基因组背景介绍该主题。当您尝试使用 R 分析基因组数据时,示例和叙述始终来自现实生活中的情况。我们相信,在为了分析基因组数据而学习这种编程语言时,根据基因组学背景定制材料会有所不同。
2.1(基因组)数据分析的步骤
无论分析类型如何,数据分析都有一个共同的模式。我们将讨论这种一般模式以及它如何应用于基因组学问题。数据分析步骤通常包括数据收集、质量检查和清理、处理、建模、可视化和报告。尽管人们希望以线性方式完成这些步骤,但返回并使用不同的参数或工具重复这些步骤是正常的。在实践中,数据分析需要一遍又一遍地执行相同的步骤,以便能够执行以下操作的组合:a)回答其他相关问题,b)处理后来意识到的数据质量问题,以及c)将新数据集纳入分析。现在,我们将简要解释基因组数据分析的步骤。
2.1.1 数据收集

2.1.2 数据质量检查和清理
缺失值或测量值有噪声是很常见的。数据质量检查和清理旨在识别任何数据质量问题并将其从数据集中清除。高通量基因组学数据是由可能将技术偏差嵌入数据的技术产生的。如果我们举一个测序的例子,测序的读数不具有相同质量的碱基。在读取结束时,您可能会有被错误调用的碱基。识别那些低质量碱基并删除它们将改进读取映射步骤。
2.1.3 数据处理
该步骤是指将数据处理成适合探索性分析和建模的格式。通常,数据不会采用可立即分析的格式。您可能需要通过转换数据点(例如对数转换、标准化等)将其转换为其他格式,或者使用某些任意或预定义的条件对数据集进行子集化。就基因组学而言,处理包括多个步骤。按照上面的测序分析示例,处理将包括将读数与基因组对齐以及对感兴趣的基因或区域进行量化。这只是计算有多少阅读覆盖了您感兴趣的区域。如果您的实验方案是 RNA 测序,这个数量可以让您了解基因的表达量。随后可以进行一些标准化以帮助下一步。
2.1.4 探索性数据分析和建模
此阶段通常采用已处理或半处理的数据,并应用机器学习或统计方法来探索数据。通常,人们需要查看测量的变量之间的关系,以及基于测量的变量的样本之间的关系。此时,我们可能想看看样本是否按照实验设计的预期进行分组,或者是否存在异常值或任何其他异常情况?在此步骤之后,您可能需要进行额外的清理或重新处理以处理异常情况。
另一个相关步骤是建模。这通常是指根据您测量的其他变量对您感兴趣的变量进行建模。在基因组学的背景下,您可能试图根据从患者的组织样本中测量的基因表达来预测患者的疾病状态。那么您感兴趣的变量就是疾病状态。这种方法通常被称为“预测建模”,可以通过基于回归的机器学习方法来解决。统计建模也将是此建模步骤的一部分。这也可以涵盖预测建模,其中我们使用线性回归等统计方法。其他分析,例如假设检验,我们有一个期望,并试图确认该期望,也与统计建模有关。基因组学中的一个很好的例子是差异基因表达分析。这可以表述为比较两个数据集,在这种情况下来自条件 A 和条件 B 的表达值,期望条件 A 和条件 B 具有相似的表达值。您将在第 3 章中看到更多相关内容。
2.1.5 可视化和报告
可视化对于前面的所有步骤或多或少都是必要的。但在最后阶段,我们需要最终的数字、表格和文本来描述分析结果。这将是您的报告。在基因组学中,我们使用常见的数据可视化方法以及由基因组数据分析开发或推广的特定可视化方法。您将在第 3 章和第 6 章中看到许多流行的可视化方法。
2.1.6 为什么使用 R 进行基因组学?
R 凭借其统计分析传统、绘图功能和丰富的用户贡献包,是完成基因组数据分析任务的最佳语言之一。高维基因组学数据集通常适合使用核心 R 包和函数进行分析。最重要的是,Bioconductor 和 CRAN 拥有一系列用于进行基因组特异性分析的专用工具。以下是可以使用 R 完成的计算基因组学任务的列表。
2.1.6.1 数据清理和处理
大多数常规数据清理,例如删除不完整的列和值、重新组织和转换数据,都可以使用 R 来实现。此外,借助软件包,R 可以连接到各种格式的数据库,例如 mySQL、mongoDB 等,并使用数据库特定工具查询数据并将其获取到 R 环境中。除此之外,可以通过 R/Bioconductor 包实现基因组数据特定处理和质量检查。例如,测序读取质量检查甚至 HT 读取比对可以通过 R 包实现。
2.1.6.2 通用数据分析和探索
大多数基因组学数据集都适合通用数据分析工具的应用。在某些情况下,您可能需要预处理数据以使其达到适合应用此类工具的状态。
• 无监督数据分析:聚类(k 均值、分层)、矩阵分解(PCA、ICA 等)
• 有监督数据分析:广义线性模型、支持向量机、随机森林
2.1.6.3 基因组学特定数据分析方法
R/ Bioconductor 使您可以访问多种其他生物信息学特定的算法。以下是您可以执行的一些操作。
• 序列分析:给定DNA 序列的TF 结合基序、GC 含量和CpG 计数
• 差异表达(或基于阵列和测序的测量)
• 基因集/通路分析:我的基因集中富集了哪些基因?
• 基因组区间操作,例如将CpG 岛与转录起始位点重叠,以及基于重叠进行过滤
• 将比对读数与外显子重叠,并对每个基因的比对读数进行计数
2.1.6.4 可视化
可视化是包括计算基因组学在内的所有数据分析技术的重要组成部分。同样,您可以在特定软件包的帮助下使用 R 中的核心可视化技术以及基因组学特定的技术。以下是您可以使用 R 执行的一些操作。
• 基本图:直方图、散点图、条形图、箱线图、热图
• 基因组学的表意图和循环图提供整个基因组不同特征的可视化。
• 基因组特征的元图谱,例如所有启动子的读段富集
• 基因组中给定基因座定量分析的可视化

12-07 11:45