我正在尝试从包含标题(重叠群的名称)和DNA序列的fasta文件创建数据帧。在数据框的第一列中,我想要文件的名称,在第二行中,我想要contig的名称,在第三列中,我想要contig序列的长度(碱基对-我不必数这个-它也在contig ID中,所以我以后可以拆分它。
在jupyter笔记本(嵌入bash外壳)中,我尝试了以下操作:
files = []
identifiers = []
# r=root, d=directories, f = files
for r, d, f in os.walk(path):
for file in f:
if '.fasta' in file:
files.append(os.path.join(file)) #this grabs my file names and appends them to files - works
open(file, "r")
for line in file:
identifiers.append(line) # this would grab the identifier - found on the first line of the file
我希望这会用filename1,filename2,filename3填充files = []
和标识符= [],其中> contig_id_1_length = 309,> contig_id_2_length = 400,> contig_id_3_length = 40009等。然后,我可以使用split()拆分contig id以检索contig的长度,并将所有3个序列添加到pd数据帧中。
最佳答案
所以我生成了一些虚拟数据:f1.fasta
>ctg_1_length=147
TCGTGGTCACCGATCGAAGATCCAATATCCGGAGATCGTCTACCTGTATGTAGTAAGCGCAAGGCCCGTTTACTGCGTCACCCTAGCAGAACGCCGACCAGGTCTCCTATAGTCACCGGCCTCGCACCTTTAAGTATGTATAGACGG
>ctg_2_length=141
GCTTGGGTGGGAACGGCTCGTGGCGGAGTACCCGAGAGTGGTTTCGGTATCTGGTGTCGTGCCAGGTTTAATTGAAAATTCAAGATTTTAAGTATCGCTTCAGATAGATTACTTACTGCGAGTGCCTTGTCACAGGGCGGG
>ctg_3_length=124
CCTTCGACCATGGATATCCTAACTCAGCCCCAGCCAGCTAACTCTGGACCAACCGAGAGCGTCTTTCTTTGATGTAACTAAGCTGGCGTTGGGCCCCCCGGTGTTCTAACGTATCTGAAGCCAA
>ctg_4_length=124
CGCGAACTTATCTTGTTATCGAAGATAGCTGTAGGAACTCGGCCAGCCCGACTATTTCGTTCGCCGCTTTCCCCTGGCTCTAGATGCAGTCCACAGATTCTTCTCAGGTGATGCGAGGAACAGG
>ctg_5_length=137
CCAACCCCTGCTCTAGGCTTACCGCCAAGCTACTCAATGGTTCGGTCGATGCAGAACGTATTACTATGTTCTCGACTCTCTGAAACCGCTGTCTACGAGGCAAGCCCCAAAATAGATGGAGGGGCCTCGCCTGTGGG
f2.fasta
>ctg_1_length=106
TCGATATTGGTTAAGGCGCGCAGCAATTTGGGAGTTGACGCACAACGTTCGGATGCGAGAGTGAGCATACGGTAGAGCCGAACCCACAATGGGTAACCGAACGACA
>ctg_2_length=60
CTACGATCTGAAATCCACTTCACGTGATCCGCGAGATGGGTTATTCGGTTTTTAGAACAT
>ctg_3_length=145
ACACTTATATCCACGATTGAGTGGCTCATCGGTGTGACACTCTGACGTCGTTTGAATACCTGCCCGGACAGGGTTTTCGTCAAACTCCCCGCGACGGTTCGTAACTGTCTGTACCCGTCGGCTGGACGAAGTTTAGATATAAAAC
>ctg_4_length=88
GAGCCGCTACATTACTTAATAACTTACAAAGGGCGAAGTCACATATTTCGTAAGAAGCATTCCTCGTCAGAATCCATTCCAAACCCCA
>ctg_5_length=87
CTACGCTAAGCTGCGGTACGACGGGGATATTACACGTACTAATCCATACCAACTAAATGGCATGTTGTTGAAGATAGCACTTTGAGG
以下代码是“纯” python方法,它不需要任何其他模块(DataFrame的熊猫除外):
import pandas as pd
from pathlib import Path
files = [x for x in Path().iterdir() if x.suffix == ".fasta"]
# [PosixPath('f1.fasta'), PosixPath('f2.fasta')]
read_list = []
for file in files:
with file.open("r") as handle:
for line in handle:
if line.startswith(">"):
line = line.strip()
read_list.append((file.name, # Change to file.resolve() for the absolute path
*line[1:].split("=")
))
df = pd.DataFrame(read_list, columns=["file", "ctg", "len"])
# file ctg len
# 0 f1.fasta ctg_1_length 147
# 1 f1.fasta ctg_2_length 141
# 2 f1.fasta ctg_3_length 124
# 3 f1.fasta ctg_4_length 124
# 4 f1.fasta ctg_5_length 137
# 5 f2.fasta ctg_1_length 106
# 6 f2.fasta ctg_2_length 60
# 7 f2.fasta ctg_3_length 145
# 8 f2.fasta ctg_4_length 88
# 9 f2.fasta ctg_5_length 87
或者,您可以使用
SeqIO
中的biopython
:import pandas as pd
from pathlib import Path
from Bio import SeqIO
files = [x for x in Path().iterdir() if x.suffix == ".fasta"]
read_list = []
for file in files:
with file.open("r") as handle:
for record in SeqIO.parse(handle, "fasta"):
read_list.append((file.name, record.id, len(record.seq)))
df = pd.DataFrame(read_list, columns=["file", "ctg", "len"])
# file ctg len
# 0 f1.fasta ctg_1_length=147 147
# 1 f1.fasta ctg_2_length=141 141
# 2 f1.fasta ctg_3_length=124 124
# 3 f1.fasta ctg_4_length=124 124
# 4 f1.fasta ctg_5_length=137 137
# 5 f2.fasta ctg_1_length=106 106
# 6 f2.fasta ctg_2_length=60 60
# 7 f2.fasta ctg_3_length=145 145
# 8 f2.fasta ctg_4_length=88 88
# 9 f2.fasta ctg_5_length=87 87
两者都基于构建
list
的read_list
(tuples
)的相同原理。由于每个元组都充当记录,所以pandas
可以非常轻松地将它们转换为DataFrame。关于python - 根据文件名,重叠群标识符和序列长度创建数据框,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55545928/