我有一个具有以下架构的表:
用户名| locationid |重量

基本问题是我需要创建一个数据透视表,以使用户ID作为行,位置ID作为列,矩阵具有权重。这可以在Excel和python中轻松实现,但问题的主要部分是我的数据量很大,大约有250万用户和200万位置。这在Excel中是不可能的,我没有足够的RAM通过python执行它。

请告诉我什么是最好的方法。

可能有一个表(几百万行)看起来像:



他需要的输出是:(数百万行和列)

最佳答案

您要如何处理结果?您是否知道最终的枢轴将需要一些terabites来存储?我不会容易管理。

您可以按userid和locationid对数据进行排序,并将数据视为稀疏矩阵。

关于python - 大数据透视表(2.5m和2m),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/19511394/

10-11 15:03
查看更多