IKAnalyzer原理分析
IKAnalyzer自带的
void org.wltea.analyzer.dic.Dictionary.disableWords(Collection<String> words)
这个类的方法是指批量移除(屏蔽)词条,是指移除词典中的词语,并不能屏蔽搜索词中的敏感词。
算法的时间复杂度,空间复杂度。这两个条件高要求(耗时更快,占用内存更少)造成算法非常难理解,如果只是随便写写,代码没有这么复杂。这个算法的另一个
通俗的执行过程如下:
这是一个中文分词的例子
从左到右每个汉字进行匹配,总共有11*10*9*8*7*6*5*4*3*2*1种组合,从之前加载的主词典、量词词典、扩展词典中匹配。
这
这是
一
一个
中
中文
分
分词
的
例
例子
关注象棋算法
关注一下敏感词过滤算法