本文介绍了从一个句子生成 N-gram的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
如何生成一个像这样的字符串的 n-gram:
How to generate an n-gram of a string like:
String Input="This is my car."
我想用这个输入生成 n-gram:
I want to generate n-gram with this input:
Input Ngram size = 3
输出应该是:
This
is
my
car
This is
is my
my car
This is my
is my car
在 Java 中给出一些想法,如何实现它或者是否有任何可用的库.
Give some idea in Java, how to implement that or if any library is available for it.
我正在尝试使用 this NGramTokenizer 但它给出了 n-gram 的字符序列,我想要 n-gram 的单词序列.
I am trying to use this NGramTokenizer but its giving n-gram's of character sequence and I want n-grams of word sequence.
推荐答案
您正在寻找 ShingleFilter.
更新:链接指向版本 3.0.2.此类在较新版本的 Lucene 中可能位于不同的包中.
Update: The link points to version 3.0.2. This class may be in different package in newer version of Lucene.
这篇关于从一个句子生成 N-gram的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!