我碰巧知道Tika,它在从单词中提取文本非常有用:

卷曲www.vit.org/downloads/doc/tariff.doc \
  | java -jar tika-app-1.3.jar --text

但是有没有办法使用它将Ms Word文件转换为XML / HTML?

最佳答案

是的,它涉及到在命令中更改多达4个字符!

如果运行java -jar tika-app-1.3.jar --help,您将获得以下开头的内容:

usage: java -jar tika-app.jar [option...] [file|port...]

Options:
  -?  or --help          Print this usage message
  -v  or --verbose       Print debug level messages
  -V  or --version       Print the Apache Tika version number

  -g  or --gui           Start the Apache Tika GUI
  -s  or --server        Start the Apache Tika server
  -f  or --fork          Use Fork Mode for out-of-process extraction

  -x  or --xml           Output XHTML content (default)
  -h  or --html          Output HTML content
  -t  or --text          Output plain text content
  -T  or --text-main     Output plain text content (main content only)
  -m  or --metadata      Output only metadata
.....


由此,您会看到,如果将--text选项更改为--html--xml,则会得到格式正确的XML,而不仅仅是纯文本

关于java - 使用Apache Tika将MSword转换为XML/HTML,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/15911492/

10-11 04:40