我有一个文本文件和字典。该词典由一个长度为 8 个字符的单词的列表组成。我浏览文本文件并每 8 个字符(“滑动窗口”)搜索字典。

目前,我使用python字典数据结构作为查找表。它已经摊销了 0(1) 的查找时间,但我想知道是否存在使用问题的特定性质/结构的更快的算法/数据结构。

最佳答案

您可以尝试 aho-corasick 多模式匹配器。它构造了一个有限状态机,使用特里和广度优先搜索最长前缀的第一次出现,该前缀也是字典字符串的后缀。您可以在 https://phpahocorasick.codeplex.com 的 php 中尝试我的实现。它还增强了搜索通配符的算法。

关于string - 在文本中查找字典字符串的最快方法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31560348/

10-11 22:23
查看更多