我碰巧知道Tika,它在从单词中提取文本非常有用:
卷曲www.vit.org/downloads/doc/tariff.doc \
| java -jar tika-app-1.3.jar --text
但是有没有办法使用它将Ms Word文件转换为XML / HTML?
最佳答案
是的,它涉及到在命令中更改多达4个字符!
如果运行java -jar tika-app-1.3.jar --help
,您将获得以下开头的内容:
usage: java -jar tika-app.jar [option...] [file|port...]
Options:
-? or --help Print this usage message
-v or --verbose Print debug level messages
-V or --version Print the Apache Tika version number
-g or --gui Start the Apache Tika GUI
-s or --server Start the Apache Tika server
-f or --fork Use Fork Mode for out-of-process extraction
-x or --xml Output XHTML content (default)
-h or --html Output HTML content
-t or --text Output plain text content
-T or --text-main Output plain text content (main content only)
-m or --metadata Output only metadata
.....
由此,您会看到,如果将
--text
选项更改为--html
或--xml
,则会得到格式正确的XML,而不仅仅是纯文本关于java - 使用Apache Tika将MSword转换为XML/HTML,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/15911492/