本文介绍了解析非常大的CSV数据集的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有一个非常大的CSV数据集(900M条记录),由以下格式组成:

I have a very large CSV dataset (900M records) that consists of the following format:

URL | IP | ActivityId

示例数据:

http://google.com/ | 127.0.0.1 | 2
http://google.com/ | 12.3.3.1 | 2

对于这种格式,我希望获得每个URL的所有唯一活动.

For this format, I wish to get all the unique activities per URL.

我试图做的是创建一个字典,其中的键是URL,值是一组唯一的活动.但是,这在性能方面非常可惜-它耗尽了所有RAM,并且在时间方面非常慢(O(n)操作)

What I tried to do was create a dictionary where the key is the URL, and the value is a set of unique activities. However, this fails miserably performance wise - it eats up all the RAM and is very slow time-wise ( O(n) operation )

还有其他更快的方法吗?

Is there any other faster approach?

推荐答案

我认为您可以使用黄昏.

然后有与熊猫相同的解决方案:

df.groupby('URL')['ActivityId'].nunique()

这篇关于解析非常大的CSV数据集的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

09-12 08:39