由于Heritrix 3.x的开发人员文档已经过时(大多数与Heritrix 1.x有关,因为大多数类已更改或代码已被大量重写/重构),所以有人可以向我指出相关内容吗?处理实际网页内容提取的系统的一个或多个类?
我要做的是获取Heritrix将要爬网的网页的内容,然后将分类器应用于网页的内容? (分析结构特征等),我认为此功能可能分布在ContentExtractor类及其许多子类之间,但是我想做的是确定我完全拥有或完全拥有网页内容的位置可读/可解析的流。 Heritrix将正则表达式应用于的内容(html)在哪里(以查找链接,某些文件类型等)?
最佳答案
我建议查看一个自定义的WriterProcessor,我编写了一个自定义的MirrorWriter,该MirrorWriter会查看传入的数据,并在文件到达时将文件写入不同的位置,以供以后进行后期处理。 MirrorWriter类的代码相当简单,而且注释也不错。
文档在这里:http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/writer/MirrorWriterProcessor.html
如果您对预处理一无所知,则可以扩展org.archive.modules.extractor.ExtractorHTML并进行即时版本处理。 http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/extractor/ExtractorHTML.html