我有一个这样的文件:

term1 term2
term3 term4
term2 term1
term5 term3
..... .....

我需要做的是按它们出现的任何顺序删除重复项,例如:
term1 term2


term2 term1

是我的复制品。
这是一个很长的文件,所以我不确定什么可以更快。
有人知道怎么做吗?也许会有问题?

最佳答案

使用perl对行中的每个单词进行排序和排序很容易。
./scriptbelow.pl

#!/usr/bin/perl

foreach(sort map { reorder($_) } <>) {
    print;
}

sub reorder {
    return join(' ', sort { $a cmp $b } split(/\s+/, $_)) . "\n";
}

08-05 10:37