本文介绍了从一个句子生成 N-gram的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

如何生成一个像这样的字符串的 n-gram:

How to generate an n-gram of a string like:

String Input="This is my car."

我想用这个输入生成 n-gram:

I want to generate n-gram with this input:

Input Ngram size = 3

输出应该是:

This
is
my
car

This is
is my
my car

This is my
is my car

在 Java 中给出一些想法,如何实现它或者是否有任何可用的库.

Give some idea in Java, how to implement that or if any library is available for it.

我正在尝试使用 this NGramTokenizer 但它给出了 n-gram 的字符序列,我想要 n-gram 的单词序列.

I am trying to use this NGramTokenizer but its giving n-gram's of character sequence and I want n-grams of word sequence.

推荐答案

您正在寻找 ShingleFilter.

更新:链接指向版本 3.0.2.此类在较新版本的 Lucene 中可能位于不同的包中.

Update: The link points to version 3.0.2. This class may be in different package in newer version of Lucene.

这篇关于从一个句子生成 N-gram的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

06-06 13:46