我有一个巨大的列表,大约有10万行这样的行:
iPadNews公司
阿比西帕德
CDDeefipad公司
地狱世界
我的世界
.. 等等
想找到流行的子串,在这种情况下“ipad”将是最受欢迎的,而“world”将排在第二位。最小长度应为三个或四个字符。
我不能预测子串,所以用字典是不行的。
最佳答案
这是一个相对复杂的问题但是使用前缀/后缀树是可以处理的它本质上是longest common subsequence和longest common substring问题的变体-我就从这里开始。
这张表上的问题实际上相当多——你应该能够使用上面的术语来缩小搜索范围。
关于algorithm - 在庞大的列表中查找热门关键字,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4168574/