我有一个DNA序列的小fasta文件,看起来像这样:

>NM_000016 700 200 234
ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC

>NM_000775 700 124 236
CTAACCTCTCCCAGTGTGGAACCTCTATCTCATGAGAAAGCTGGGATGAG

>NM_003820 700 111 222
ATTTCCTCCTGCTGCCCGGGAGGTAACACCCTGGACCCCTGGAGTCTGCA


问题:

1)如何将这个Fasta文件读入R作为数据帧,其中每一行都是一个序列记录,第一列是refseqID,第二列是序列。

2)如何在(开始,结束)位置提取子序列?

NM_000016 1  3 #"ACA"
NM_000775 2  6 #"TAACC"
NM_003820 3  5 #"TTC"

最佳答案

您应该看看Biostrings包。

library("Biostrings")

s = readDNAStringSet("nm.fasta")
subseq(s, start=c(1, 2, 3), end=c(3, 6, 5))

关于r - 将FASTA读入数据帧并提取FASTA文件的子序列,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/21263636/

10-12 19:46