我是编程新手,在过去的几周中我一直在研究生物信息学问题,并且进展非常有限。
我有一个带有大量基因组的大型FASTA文件,我希望运行一个全对所有BLAST搜索,该搜索将识别同系物/直系同源物(通过使用-outfmt 6在其长度上具有> = 95%的序列相似性来进行识别)在我的文件中,将那些和非同源/直系同源基因打印到生物体对基因存在/不存在矩阵中(“ 1” =存在,“ 0” =不存在。我被告知,一个交互式的全对全BLAST,将所有同源性/矫形器更新为一个文件,然后从数据库中删除它们,并重复该过程,直到不再执行相关的BLAST搜索可能是解决该问题的一种方法,但是尽管我付出了很多努力,但我什至不知道该怎么做。在可能的情况下,宁愿在Python和/或Unix / Linux中执行此操作。
有人可以帮忙吗?
例如:
如果我有3个生物体和4个基因,如果BLAST结果表明Gene_1存在于Organisms_1中,则为2; Gene_2存在于所有有机体中,Gene_3仅存在于Organism_1中,而Gene_4仅存在于Organism_3中。
Gene_1 Gene_2 Gene_3 Gene_4
Org_1 1 1 1 0
Org_2 1 1 0 0
Org_3 0 1 0 1
最佳答案
如果我理解正确,那么您需要获取以下信息:
-这是同源/直系同源基因
-它们存在于哪些物种中
有一个程序可以完成所有这些工作,下面让我向您介绍SiLiX
http://lbbe.univ-lyon1.fr/SiLiX
您可以下载该文件并将其设置为95%的身份,然后将其结果“喂”给所有爆炸对象。您将获得一个包含所需信息的文件!
该文件易于解析(尤其是在python中),因此您可以从中提取所需的所有信息。因此您可以从中创建矩阵。