我有兴趣下载一堆网页供日后分析。我想做两件事:
将页面和相关资源(图像、与文章相关联的多个页面等)下载到warc文件。
更改所有链接以指向现在的本地文件。
我想用python做这个。
有什么好的图书馆可以这样做吗?scrapy似乎是用来抓取网站,而不是单个页面,我不知道如何生成warc文件。调用wget是一个可行的解决方案,如果没有更多的python原生的东西。heritrix是完全的过度杀戮,而不是一个python解决方案。如果wpull有一个文档丰富的python库,它将是理想的选择,但它似乎主要是一个应用程序。
还有其他想法吗?
最佳答案
只需使用wget,这是一个最简单、最稳定的工具,您可以抓取web并保存到warc中。
伙计,还是开始吧:
--warc-file=FILENAME save request/response data to a .warc.gz file
-p, --page-requisites get all images, etc. needed to display HTML page
请注意,您不必更改任何链接,warc保留原始网页。是重播软件(openwayback,pywb)的工作,使warc内容可以再次浏览。
如果需要使用python:
internetarchive/warc是默认库
如果你想手动创建一个warc文件ampoffcom/htmlwarc
关于python - 使用python将网页和相关资源下载到WARC,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41195142/