我有一个数据帧,看起来类似于:
In [45]: df
Out[45]:
Item_Id Location_Id date price
0 A 5372 1 0.5
1 A 5372 2 NaN
2 A 5372 3 1.0
3 A 6065 1 1.0
4 A 6065 2 1.0
5 A 6065 3 3.0
6 A 7000 1 NaN
7 A 7000 2 NaN
8 A 7000 3 NaN
9 B 5372 1 3.0
10 B 5372 2 NaN
11 B 5372 3 1.0
12 B 6065 1 2.0
13 B 6065 2 1.0
14 B 6065 3 3.0
15 B 7000 1 8.0
16 B 7000 2 NaN
17 B 7000 3 9.0
对于每个
Item_Id
类别中的每个Location_Id
,我想计算每个Item_Id
对之间价格的成对相关性。请注意,虽然我只给出了两个唯一的Item_Id
在上面的示例数据中,有几十个不同的值
Item_Id
出现在我的实际数据中。我试过使用groupby.corr()
,但这似乎没有给我想要的。最后,我需要N个数据帧,其中N是
Location_Id
中唯一df
值的数目。N个数据帧中的每一个都是特定类别中存在的Item_Id
的所有成对组合之间价格的平方相关矩阵。因此,N个数据帧中的每一个都有J行和列,其中J是特定Location_Id
组中唯一Item_Id
值的数目。 最佳答案
您可以按Location_Id
分组,然后以date
和Item_Id
为轴心,得到相关性:
>>> corr = lambda obj: obj.pivot('date', 'Item_Id', 'price').corr()
>>> df.groupby('Location_Id').apply(corr)
Item_Id A B
Location_Id Item_Id
5372 A 1.000 -1.000
B -1.000 1.000
6065 A 1.000 0.866
B 0.866 1.000
7000 A NaN NaN
B NaN 1.000
得到每个
Location_Id
的2x 2矩阵。关于python - 成对相关,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27463154/