我正在使用 VB9 (VS2008) 和 Lucene.NET 开发桌面搜索引擎。
Lucene.NET 中的索引器仅接受原始文本数据,无法直接从 Microsoft Office(DOC、DOCX、PPT、PPTX)和 PDF 文档中提取原始文本。
从此类文件中提取原始文本数据的最佳方法是什么?
最佳答案
您可以像 Windows 桌面搜索一样使用实现 IFilter 接口(interface)的组件。
关于vb.net - 解析 Microsoft Office 和 PDF 文档的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/465302/