问题的场景:  

解决方案:都是来自于科技论文

==============================================================================

场景:文本搜素如何做,基于数据库应该不行,比如找含有'语文'二次的word文档,一次一次的比较吗?不现实。

解决方案:Lunce

核心:索引--建立目录

   本质:hash机制:

        数组+链表的组合
理论知识:

  排序算法以tree结构

模拟器件:

  搜索器、索引器、检索器

编程模型:

  1、创建Directory对象,索引文件夹

  2、创建IndexSearch对象,建立查询(参数是Directory对象)

  3、创建QueryParser对象(lucene版本,查询Field字段,所用分词器)

  4、生成Query对象,由QueryParser对象的parse函数生成(参数是所查的关键字)

  5、建立TopDocs对象(IndexSearch的search函数,参数是Query查询对象,)

  6、TopDocs对象数组里存放查询信息

  7、关闭IndexSearch

==============================================================================

如何快速进行检索,其实我们要对其进行建立索引,也就是目录,这样我们方便查找.....但是如何建立,这就是涉及到分词,这大家可以看一些论文,比较理论化,但是对我们项目里面使用影响不是很大。  

  

05-11 19:43