我只是想知道是否有人知道有什么好的库可以用来解析.doc文件(以及类似的格式,如.odt)来提取文本,同时还可以在可能的情况下保留格式信息以显示在网站上。
对pdf进行类似操作的能力将是一个额外的好处,但我并没有那么期待。
这是一个rails项目,如果有帮助的话。
提前谢谢!

最佳答案

apache的POI是访问word和excel文档的一种非常流行的方法。有一个Ruby POI binding可能值得研究,但看起来你必须自己构建它。而且API看起来不太像Ruby,因为它实际上是Java代码的直接端口。而且它似乎只针对Ruby1.8.2进行了测试。

10-02 21:23