首先,对于这个问题,这可能是错误的论坛,因为它的R + Bioconductor相当具体。这是我所拥有的:
library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]
现在cd4T是一个ExpressionSet对象,它包装了一个大矩阵,其中包含19794行(探针)和15列(样本)。最后一行删除了没有相应基因符号的所有探针集。现在的麻烦是,该组中的大多数基因都分配给多个探针组。您可以通过执行此操作来查看
gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897
因此,我的19794个探针集中只有6897个具有唯一的探针集->基因定位。我想以某种方式组合与每个基因相关的每个探针集的表达水平。我不太在乎每个探针的实际探针ID。我非常希望最终得到一个包含合并信息的ExpressionSet,因为我所有的下游分析都旨在与该类一起使用。
我想我可以编写一些代码来手动完成此任务,并从头开始创建一个新的表达式集。但是,我假设这不是一个新问题,并且存在使用统计学上合理的方法组合基因表达水平的代码来完成此任务。我猜也有个合适的名字,但是我的谷歌并没有显示出太多的用途。有人可以帮忙吗?
最佳答案
我不是专家,但是根据我多年来的观察,每个人都有自己喜欢的组合探针集的方式。我看到的两种使用最多的方法是仅使用在表达矩阵上具有最大方差的探针集,另一种方法是取探针集的均值并从中创建一个元探针。对于较小的探针组,我见过人们使用更密集的方法,包括查看每个探针的图,以了解发生的事情……通常情况是,一个探针组被证明是“好”探针组,休息不是很好。
我还没有看到通用的代码来执行此操作-例如,我们最近在我的实验室中意识到,我们中的一些人拥有自己的私有(private)函数来执行相同的操作。
关于R +生物导体: combining probesets in an ExpressionSet,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/2775231/