IKAnalyzer原理分析

IKAnalyzer自带的

void org.wltea.analyzer.dic.Dictionary.disableWords(Collection<String> words)

这个类的方法是指批量移除(屏蔽)词条,是指移除词典中的词语,并不能屏蔽搜索词中的敏感词。

算法的时间复杂度,空间复杂度。这两个条件高要求(耗时更快,占用内存更少)造成算法非常难理解,如果只是随便写写,代码没有这么复杂。这个算法的另一个

通俗的执行过程如下:

这是一个中文分词的例子

从左到右每个汉字进行匹配,总共有11*10*9*8*7*6*5*4*3*2*1种组合,从之前加载的主词典、量词词典、扩展词典中匹配。

这是

一个

中文

分词

例子

关注象棋算法

关注一下敏感词过滤算法

05-04 08:16