我有一个这样的文件:
term1 term2
term3 term4
term2 term1
term5 term3
..... .....
我需要做的是按它们出现的任何顺序删除重复项,例如:
term1 term2
和
term2 term1
是我的复制品。
这是一个很长的文件,所以我不确定什么可以更快。
有人知道怎么做吗?也许会有问题?
最佳答案
使用perl对行中的每个单词进行排序和排序很容易。
./scriptbelow.pl
#!/usr/bin/perl
foreach(sort map { reorder($_) } <>) {
print;
}
sub reorder {
return join(' ', sort { $a cmp $b } split(/\s+/, $_)) . "\n";
}