我想过滤我的 fastq 文件中具有超过 8 个相同连续核苷酸的序列,例如 "GGGGGGGG""CCCCCCCC" 等。

我该怎么做?

最佳答案

  • 快速但不正确的方式,可能足够接近: grep -E -B1 -A2 'A{8}|C{8}|G{8}|T{8}' yourfile.fastq
    这将错过 8-mer 分成两条线的块(例如,第一条线以 AAAA 结束,第二条线以 AAAA 开始)。它还假设输出有 4 行的块。
  • 正确的方法:编写一个小程序(用 Python 或您选择的语言),它缓冲一个 FASTQ 块(例如 4 行)并检查前一个(缓冲的)块的序列和当前块的序列的串联不有一个 8-mer 如上所述。如果是这种情况,则输出缓冲块。
  • 关于bioinformatics - 在fastq文件中过滤具有超过8个相同连续核苷酸的序列?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58676117/

    10-11 22:23