我计划实现以下内容:让我们考虑一下,我有一本以下形式的词典:
鲍勃·迪伦,
交流/直流,
安博伊公爵,
乔治·索罗戈德和驱逐舰。
因此字典包含1个标记,2个标记和最多可能n个标记的单词。
现在,当我有内容(一个段落)时,如果这个词是上面字典的一部分,我想链接内容。如果我的内容是这样的:
鲍勃迪伦出生于罗伯特艾伦齐默尔曼在圣玛丽医院
1941年5月24日,在明尼苏达州的德卢斯,在明尼苏达州的希宾长大,
在苏必利尔湖以西的梅萨比铁岭上。
在段落中,我们看到使用了bob dylan,而bob dylan是字典的一部分。有没有一种算法可以有效地识别字典中数百万条记录的这种情况?

最佳答案

你可能在找Aho-Corasick string matching algorithm
该算法从字典中构建一个自动机,并在该自动机的文本流中查找匹配项。

10-07 19:09
查看更多