我需要浏览和下载公共(public)爬网的公共(public)数据集的子集。 This页面提到数据的托管位置。
如何浏览并可能下载s3://aws-publicdatasets/common-crawl/crawl-002/上托管的常见爬网数据?
最佳答案
作为更新,Common Crawl语料库一直免费提供,并且您可以使用HTTP而不是S3。
S3允许您使用匿名凭据来访问数据。
如果要通过HTTP下载,请获取文件位置之一,例如:
common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz
然后将https://commoncrawl.s3.amazonaws.com/添加到其中,从而得到链接:
https://commoncrawl.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz
要获取所有此类文件的列表,请在较新的爬网中引用warc.paths.gz(或WET或WAT文件的等效文件),或使用s3cmd或类似工具使用匿名凭据列出文件。
该链接将起作用,并允许您下载数据而无需通过S3。
关于amazon-web-services - 访问公共(public)的爬网AWS公共(public)数据集,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16649535/