以下项目中使用的通用爬网索引文件

https://github.com/trivio/common_crawl_index/blob/master/bin/remote_copy

mmap = BotoMap(s3_anon, src_bucket, '/common-crawl/projects/url-index/url-index.1356128792'

partial one.

我希望完整的索引文件(APRIL-2015爬网数据)在以上述项目为基础的项目中使用。

在哪里可以下载整个索引文件?

Here 汤姆·莫里斯(Tom Morris)说


  也可以使用索引服务使用的索引文件
  下载。

最佳答案

常见的爬网索引文件可在s3://commoncrawl/cc-index/collections/上公开获得

您可以检出aws命令行可用的所有爬网索引:aws s3 ls s3://commoncrawl/cc-index/collections/

2015年4月的索引文件位于s3://commoncrawl/cc-index/collections/CC-MAIN-2015-18/indexes/

如果要通过http协议下载索引*.gz文件,可以执行以下操作:


  https://commoncrawl.s3.amazonaws.com/cc-index/collections/CC-MAIN-2015-18/indexes/cdx-00000.gz


cdx文件主要是从cdx-00000.gz到cdx-00299.gz,因此完整的索引包含在300个文件中。

10-05 23:00
查看更多