我有以下(大)文件,其中包含 30233088 个字符串:
head mystringfile.txt:

GAATGAACACGAAGAA
GAATGAACACGAAGAC
GAATGAACACGAAGAG
GAATGAACACGAAGCA
cat sequence.txt
AAATAGAGGGCGGTCCAGGCGTGTCGAAACACTGGGTCCAGGGCAAGAGCGGTTCGGGTGTCAGGAAAGCCCCCAAGGGGGTTCGCGCGGTTTGCAGTGAGGTAGAGGCCGGTGTATGGGTAGACAATTGGGGTCCCAAAGAAAAAGGCTCGTCCAACATCATAATAAACCCAAGCACGATAAAAAGCAAACGCAGACTTCAATAGGGTACGAGCAATTGTGGCAGGGTGCTCGCTGTCAGGGTTAGATCTTCTTGGAGTCGCGTCGCTCGGGGGGGCAAGGCCAACGTAAGATCGTGGCTGATCGCTGGCAATGCGGTCGGTTGGGTGGTCGCTAGTAGGGGCACGGCGGTCTCTTATGGCGTCGTAAAATGCGTCTCCAAAGCGAAAAGGGGCGGCAGACAAGTCACCGGGCAAGCTTAGAGGTCTGGGGCCCGTGGCTTTAGGGGAATGAACACGAAGACGCGAAACGAAGTCGTGTTTCTTGTTGGCTGTAGAGGGGAAAACCGTCTGGGGCGATCTGGCGTAGTAGTGCGTGTCTTGCAGTGAGCTCCCCGTCCGTAAGGATTCGCAGGAATCCTGCGTGAAGCTCGGTCGTCTCGGCCGTGTCTCGGGGTTTGATTGCGGGTTCAGATTGGAAAGGTCTCCTCGGGTCGTTTGCTGCATTTGCTCGCAACCCTGACGTGAAAGGGGTGAGCTGTCTCCAATCTGCCACGCTGGGTGTTGCGTCGTCAGTAAAAGACTTGGTCAAGCTGGGACCTCGCAAGATCGCGAGAGGGTTAAGCACAAAAGGTATGGCGAAGCTCCCGGGTGCTCTTGTGGCCACCCAGAATCATGGTGACGTAGGTTTTGCGAAGCCATCAAAAATTCAGGCGGCAAAACGAGCCAGTAGGGTCCTGGGCAGCTGGGCTTGTAGTGGGTAGGCGGCAAAACGCAAAGAATGAACACGAAGCAACTCCGTAGTGTGACGGGGGTTCTGACAAACGTCCTGCAAGAAGTTCGTCTTGGG

我需要在另一个序列文件中使用 grep 来确定匹配的位置,我的操作如下:
while read line; do grep -b -o $line sequence.txt >>sequence.txt.count; done<mystringfile.txt

像这样运行代码当然需要很长时间并且只运行 1 个线程的一部分,那么我该如何修改它(使用 parallelxargs ?),以便它在我想要指定的尽可能多的线程上运行?

最佳答案

你的想法是错误的使用 shell 循环来处理文本。您正在打开一个新的文件描述符,以便为输入文件的 30233088 次迭代中的每一个重新定向到输出文件。它很容易产生巨大的性能影响或用完打开的文件描述符的情况。

为工作使用正确的工具。 Awk 是你的 friend 。如果 sequence.txt 就像你说的那样只是一个巨大的模式,你可以将它放入一个变量中以进行正则表达式匹配,如下所示。该解决方案不涉及必须在 RAM 中存储条目的内存开销

awk -v sequence="$(<sequence.txt)" 'n=index(sequence, $1){print n":"$1}' mystringfile.txt

这应该比您采用的方法相对更快,并且为了进一步加快速度,请更改您的 locale 设置以匹配 C 本地,
LC_ALL=C awk -v sequence="$(<sequence.txt)" 'n=index(sequence, $1){print n":"$1}' mystringfile.txt

要与 grep-b 选项匹配以打印字节偏移量开始,请在上面的答案中使用 n-1 而不仅仅是 n

如果您仍想使用 GNU 并行,请使用 --pipepart 将文件物理拆分为多个部分,并将 --block 大小指定为要读取的文件内容 MB
parallel -a mystringfile.txt --pipepart --block=20M -q awk -v sequence="$(<sequence.txt)" 'n=index(sequence, $1){print n":"$1}'

关于awk - 带多线程的 Grep,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/53222347/

10-09 07:10
查看更多