以下项目中使用的通用爬网索引文件
https://github.com/trivio/common_crawl_index/blob/master/bin/remote_copymmap = BotoMap(s3_anon, src_bucket, '/common-crawl/projects/url-index/url-index.1356128792'
)
是partial one.
我希望完整的索引文件(APRIL-2015爬网数据)在以上述项目为基础的项目中使用。
在哪里可以下载整个索引文件?
Here 汤姆·莫里斯(Tom Morris)说
也可以使用索引服务使用的索引文件
下载。
最佳答案
常见的爬网索引文件可在s3://commoncrawl/cc-index/collections/
上公开获得
您可以检出aws命令行可用的所有爬网索引:aws s3 ls s3://commoncrawl/cc-index/collections/
2015年4月的索引文件位于s3://commoncrawl/cc-index/collections/CC-MAIN-2015-18/indexes/
如果要通过http协议下载索引*.gz
文件,可以执行以下操作:
https://commoncrawl.s3.amazonaws.com/cc-index/collections/CC-MAIN-2015-18/indexes/cdx-00000.gz
cdx文件主要是从cdx-00000.gz到cdx-00299.gz,因此完整的索引包含在300个文件中。