我正在使用Stormcrawler 1.15,ElasticSearch 7.5,并按照此教程进行操作以启动SC:https://www.youtube.com/watch?v=KTerugU12TY
在我的crawler-conf.yaml中,我有:
# indexer.md.filter: "someKey=aValue"
indexer.url.fieldname: "url"
indexer.text.fieldname: "content"
indexer.canonical.name: "canonical"
indexer.md.mapping:
- parse.title=title
- parse.keywords=keywords
- parse.description=description
- domain=domain
这表明我已经有了描述和关键字,但是到目前为止,我在“内容”索引的文档中获得了以下字段:URL,内容,域,标题。例如:
{
"_index": "content",
"_type": "_doc",
"_id": "c31104689b7ab4e8152f70b755049e7060da3457f06d64993667df28f7be6811",
"_score": 1,
"_source": {
"content": "Startseite Gesetze / Verordnungen Aktualitätendienst [...]",
"url": "http://www.gesetze-im-internet.de/markeng_8bek_00-03-27/index.html",
"domain": "gesetze-im-internet.de",
"title": "MarkenG§8Bek 00-03-27 - nichtamtliches Inhaltsverzeichnis"
}
}
但我想获得更多,例如关键字,描述,创建日期,爬网日期。甚至是摘要。
我如何获得这些?
我可以使用此搜寻器获得其他哪些值/字段?
如何在ES中获得它们?
我听说有一种方法可以使SC与tika一起使用,以更好地解析html和pdf,这样一来,也许我可以从爬网的页面中获取更多的数据和元数据。但是我仍然不知道该怎么做。对此的指南/教程会很好。
最佳答案
确保将解析过滤器正确配置为here。可以对搜寻器进行配置或扩展以提取几乎所有内容,有关现有解析过滤器的列表,请参见WIKI。
与JSOUP相比,Tika模块在HTML文档方面做得更好,但可以处理其他mime类型。请参阅该模块的自述文件以了解如何使用它。
关于elasticsearch - 我可以从Stormcrawler获得哪些值/字段?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59445089/