Tika可以从文件中提取元数据。
什么是元数据:
word文档的元数据:
Tika提取元数据:
我们可以使用文件parse()方法提取元数据,传递一个空的元数据对象作为一个参数。这种方法提取指定的文件的元数据(如果该文件中包含有),并将它们放置在元数据对象。因此,在使用parse()解析文件后,就可以提取该对象的元数据。
下面是完成提取元数据的例子
@Test public void getMetadataToImg() throws IOException, TikaException, SAXException { File file = new File("F:\\页面\\数字档案室\\html - 副本\\style\\erms\\images\\hintIcon.png"); Parser parser = new AutoDetectParser(); BodyContentHandler handler = new BodyContentHandler(); Metadata metadata = new Metadata(); FileInputStream inputstream = new FileInputStream(file); ParseContext context = new ParseContext(); parser.parse(inputstream, handler, metadata, context); String[] metadataNames = metadata.names(); for (String name : metadataNames) { System.out.println(name + ": " + metadata.get(name)); } }
获取结果:
文档参考网址:https://www.sxt.cn/tika/tika_metadata_extraction.html