我是一名生物学专业的学生,​​在我们的实验室中,我们正在对小鼠进行某种药物的测试。在正常状态下,我们有许多生物复制的基因表达数据集:
gene replicate 1 replicate2gene1 -0.842138 -0.701153gene2 -0.796896 -0.725085gene3 -0.835920 -0.707572gene5 -0.702721 -0.724579gene6 -0.815476 -0.737112....gene 20000
each dot represent a gene

在给他们喂药之后,我们有了一个新的基因表达数据:
after medicine treatment

我的问题是,我如何才能将那些真正受影响的基因与那些仅仅具有生物学差异(重复之间的差异)的基因分开?

我是机器学习的新手,我认为应该选择监督学习,对吗?训练数据是我的重复数据,然后我可以测试药物治疗后的每个基因是否可以落入重复定义的“耐受区”。但是我不确定应该使用哪种方法。任何指导均应事先领会。

最佳答案

首先欢迎您使用Stack Overflow!其次,我真的认为这个问题应该移到这里:DataScienceArtificial Intelligence。尽管如此,我会尽力帮助您解决问题。

我有几个问题,当您回答时,您应该以正确的方式实际解决此问题:


您是如何将数据拆分为训练数据的(用于训练目的的数据占总数据的百分比)?
您是否为最初引入该化学品的基因确定了界限?
您最初期望什么变化?
完成测试后,方差的边界是否发生了重大变化?
您正在考虑针对此特定问题使用哪些算法?
您将使用EDA以获得更好的见解吗?
您是否考虑过使用K均值来观察“新药”引入后数据簇的变化?


我个人将计算这些基因的均值和标准差,并在引入药物后进行同样的操作。这应该有助于您了解边界如何更改以及最有可能在何处发生传播。另外,如果您可以选择的话,请始终使用EDA(我知道我对此很有道理,但这很有帮助)。我认为这应该有助于您更好地了解自己的问题。我希望能有所帮助。

算法的有用链接:Machine Learning Algorithms

关于python - 生物变异或真正受影响的基因。,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43979825/

10-12 17:10