在.Net中,从几种二进制文件格式中提取所有文本的最佳方法是什么:PDF,Word,Excel和PowerPoint。

它不需要格式化,只是文件中文本的一大堆。

代码会很棒,但是我真的只需要指出一些最佳实践或模式。

最佳答案

我很惊讶没有人提到IFilters。 IFilters是Microsoft用于索引Windows中的文档的工具。您必须进行一些谷歌搜索才能找到所需特定格式的IFilter,但是您应该找到所需的大多数内容。请注意,IFilter并不是完美的。他们有问题.....

以下是CodProject的入门文章:http://www.codeproject.com/KB/cs/IFilter.aspx

10-06 16:09