我是编程新手,在过去的几周中我一直在研究生物信息学问题,并且进展非常有限。

我有一个带有大量基因组的大型FASTA文件,我希望运行一个全对所有BLAST搜索,该搜索将识别同系物/直系同源物(通过使用-outfmt 6在其长度上具有> = 95%的序列相似性来进行识别)在我的文件中,将那些和非同源/直系同源基因打印到生物体对基因存在/不存在矩阵中(“ 1” =存在,“ 0” =不存在。我被告知,一个交互式的全对全BLAST,将所有同源性/矫形器更新为一个文件,然后从数据库中删除它们,并重复该过程,直到不再执行相关的BLAST搜索可能是解决该问题的一种方法,但是尽管我付出了很多努力,但我什至不知道该怎么做。在可能的情况下,宁愿在Python和/或Unix / Linux中执行此操作。

有人可以帮忙吗?

例如:

如果我有3个生物体和4个基因,如果BLAST结果表明Gene_1存在于Organisms_1中,则为2; Gene_2存在于所有有机体中,Gene_3仅存在于Organism_1中,而Gene_4仅存在于Organism_3中。

    Gene_1  Gene_2  Gene_3  Gene_4
Org_1   1       1       1       0
Org_2   1       1       0       0
Org_3   0       1       0       1

最佳答案

如果我理解正确,那么您需要获取以下信息:

-这是同源/直系同源基因

-它们存在于哪些物种中

有一个程序可以完成所有这些工作,下面让我向您介绍SiLiX

http://lbbe.univ-lyon1.fr/SiLiX

您可以下载该文件并将其设置为95%的身份,然后将其结果“喂”给所有爆炸对象。您将获得一个包含所需信息的文件!

该文件易于解析(尤其是在python中),因此您可以从中提取所需的所有信息。因此您可以从中创建矩阵。

10-07 13:48