我宁愿不必在可能的情况下启动lingpipe,这使我想知道Java中是否有任何快速,简便的方法来从文本字符串中提取所有的双字母组和三字母组?

谢谢

最佳答案

总是最简单的方法是使用现有的库。您可以看一下simmetrics库。您也可以使用lucene NgramTokenizer。您也可以自己实现此算法。首先,您必须找到文本中的所有单词(使用StringTokenizer),然后生成所需的n-grams

10-04 18:49