我有一个应用程序,可以显示大约 100 条热门话题的推文。问题是它们中的很多都非常相似(即具有不同网址的相同推文),这就是为什么我想忽略非常相似的推文。
我正在尝试找到一种有效的方法来使用 python 执行此操作。我正在考虑使用:http://code.google.com/p/pylevenshtein/ 来解决这个问题,但我必须将很多推文相互比较,也许有更简单的方法。
最佳答案
尝试 difflib.get_close_matches 将每条推文与其他推文进行比较。
关于python - 计算一组字符串的相似度(推文),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/11254331/