如何根据原始文本计算两个文本文件之间的交集?解决方案是使用shell命令,还是用python、elisp或其他常用脚本语言表示,这都无关紧要。
我知道commgrep -Fxv -f file1 file2。两者都假设我对线的交集感兴趣,而我对字符的交集感兴趣(最少需要计算为匹配的字符数)。
效率加分。
例子
如果文件1包含

foo bar baz-fee

文件2包含
fee foo bar-faa

那我想看看
foo bar
fee
假设最小匹配长度为3。

最佳答案

您正在寻找python的difflib模块(在标准库中),特别是difflib.SequenceMatcher

09-30 19:51