我正在使用 VB9 (VS2008) 和 Lucene.NET 开发桌面搜索引擎。
Lucene.NET 中的索引器仅接受原始文本数据,无法直接从 Microsoft Office(DOC、DOCX、PPT、PPTX)和 PDF 文档中提取原始文本。
从此类文件中提取原始文本数据的最佳方法是什么?

最佳答案

您可以像 Windows 桌面搜索一样使用实现 IFilter 接口(interface)的组件。

  • Example of its usage from .NET
  • Links to IFilter implementations
  • Description of the IFilter interface
  • 关于vb.net - 解析 Microsoft Office 和 PDF 文档的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/465302/

    10-12 12:48
    查看更多