我想过滤我的 fastq 文件中具有超过 8 个相同连续核苷酸的序列,例如 "GGGGGGGG"
、 "CCCCCCCC"
等。
我该怎么做?
最佳答案
grep -E -B1 -A2 'A{8}|C{8}|G{8}|T{8}' yourfile.fastq
。这将错过 8-mer 分成两条线的块(例如,第一条线以 AAAA 结束,第二条线以 AAAA 开始)。它还假设输出有 4 行的块。
关于bioinformatics - 在fastq文件中过滤具有超过8个相同连续核苷酸的序列?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58676117/