dawgdic是一个很棒的DAWG库,但是它有一个很大的缺点,因为它是静态的(不可更新),并且必须以按字母顺序排序的字符串形式构造。如果构造DAWG的原始数据很大(几GB),则DAWG的初始构造涉及对大量字符串的排序,可能会占用太多资源。

是否有一个库提供作为dawgdic的内存有效结构,该结构允许从未排序的字典进行构建?

最佳答案

当前,我认为没有任何库可以允许使用未排序的字典构造DAWG。

但是,经过大量搜索,我发现了这篇论文"Incremental Construction of Minimal Acyclic Finite-State Automata",我认为它正是您想要的。也许您可以在阅读本文后创建自己的图书馆,并与所有人共享!

编辑:您看过this question吗?

关于c++ - 来自未排序数据的可更新DAWG库或DAWG构造,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/18470165/

10-11 01:14