本文介绍了在 Lucene 中获取每个文档的搜索词 Hits(出现次数)的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
任何人都可以建议我在 Lucene 中获取每个文档的 Hits(没有出现次数)的最佳方法吗?..
Can any one suggest me the best way to get Hits( no of occurrences ) of a word per document in Lucene?..
推荐答案
Lucene 使用基于字段而不是基于文档的索引.为了获得每个文档的术语计数:
Lucene uses a field-based, rather than document-based, index.In order to get term counts per document:
- 使用 IndexReader.document() 和 isDeleted().
- 在文档 d 中,使用 Document.getFields().
- 对于每个字段 f,使用 getTermFreqVector().
- 检查词向量和每个词的频率总和.
- 每个字段的词频总和将为您提供文档的词频向量.
- Iterate over documents using IndexReader.document() and isDeleted().
- In document d, iterate over fields using Document.getFields().
- For each field f, get terms using getTermFreqVector().
- Go over the term vector and sum frequencies per terms.
- The sum of term frequencies per field will give you the document's term frequency vector.
这篇关于在 Lucene 中获取每个文档的搜索词 Hits(出现次数)的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!