我有一个DNA序列的小fasta文件,看起来像这样:
>NM_000016 700 200 234
ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC
>NM_000775 700 124 236
CTAACCTCTCCCAGTGTGGAACCTCTATCTCATGAGAAAGCTGGGATGAG
>NM_003820 700 111 222
ATTTCCTCCTGCTGCCCGGGAGGTAACACCCTGGACCCCTGGAGTCTGCA
问题:
1)如何将这个Fasta文件读入R作为数据帧,其中每一行都是一个序列记录,第一列是refseqID,第二列是序列。
2)如何在(开始,结束)位置提取子序列?
NM_000016 1 3 #"ACA"
NM_000775 2 6 #"TAACC"
NM_003820 3 5 #"TTC"
最佳答案
您应该看看Biostrings包。
library("Biostrings")
s = readDNAStringSet("nm.fasta")
subseq(s, start=c(1, 2, 3), end=c(3, 6, 5))
关于r - 将FASTA读入数据帧并提取FASTA文件的子序列,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/21263636/