python - 使用python将网页和相关资源下载到WARC

我有兴趣下载一堆网页供日后分析。我想做两件事：
将页面和相关资源（图像、与文章相关联的多个页面等）下载到warc文件。
更改所有链接以指向现在的本地文件。
我想用python做这个。
有什么好的图书馆可以这样做吗？scrapy似乎是用来抓取网站，而不是单个页面，我不知道如何生成warc文件。调用wget是一个可行的解决方案，如果没有更多的python原生的东西。heritrix是完全的过度杀戮，而不是一个python解决方案。如果wpull有一个文档丰富的python库，它将是理想的选择，但它似乎主要是一个应用程序。
还有其他想法吗？

最佳答案

只需使用wget，这是一个最简单、最稳定的工具，您可以抓取web并保存到warc中。
伙计，还是开始吧：

--warc-file=FILENAME        save request/response data to a .warc.gz file
-p,  --page-requisites           get all images, etc. needed to display HTML page

请注意，您不必更改任何链接，warc保留原始网页。是重播软件（openwayback，pywb）的工作，使warc内容可以再次浏览。
如果需要使用python：
internetarchive/warc是默认库
如果你想手动创建一个warc文件ampoffcom/htmlwarc

关于python - 使用python将网页和相关资源下载到WARC，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/41195142/

Warc

python - 使用python将网页和相关资源下载到WARC