我有一个很大的fastq文件,我想将序列“ TTAAGG”添加到文件中每个序列的末尾(第2行,然后是第4行),同时仍保持fastq文件格式。例如:
这是我开始的第一行:

@HWI-D00449:41:C2H8BACXX:5:1101:1219:2053 1:N:0:
GCAATATCCTTCAACTA
+
FFFHFHGFHAGGIIIII


我希望它打印出来:

@HWI-D00449:41:C2H8BACXX:5:1101:1219:2053 1:N:0:
GCAATATCCTTCAACTATTAAGG
+
FFFHFHGFHAGGIIIII


我想用sed或awk可以解决这个问题,但是我找不到能够保留fastq格式的解决方案。

我试过了:

awk 'NR%4==2 { print $0 "TTAAGG"}' < file_in.fastq > fileout_fastq


这将TTAAGG添加到第二行,然后添加到第四行,但是它也删除了其他三行。

有没有人对我可以使用的命令行有建议,或者如果您知道当前可用的可以执行此操作的软件包,请告诉我!

最佳答案

尝试使用GNU sed:

 sed '2~4s/$/TTAAGG/' file

08-03 20:56
查看更多