这里的真正目标是在Python中找到分位数的平均值(或和或中值等)。因为我不是Python的超级用户,但已经使用R一段时间了,所以我选择的路径是通过Rpy。但是,我遇到了这样一个问题:返回的平均值列表与分位数的顺序不对应。特别是,我在R中有以下内容:
> a = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
> b = c(2, 4, 20, 40, 200, 400, 2000, 4000, 20000, 40000)
> prob = seq(0,5)/5
> br = quantile(a,prob)
> rcut = cut(a, br, include.lowest = TRUE)
> quintile_means = tapply(b, rcut, mean)
> quintile_means
[1,2.8] (2.8,4.6] (4.6,6.4] (6.4,8.2] (8.2,10]
3 30 300 3000 30000
一切都很好。但是,如果我把代码翻译成Rpy,我得到
>>> import rpy
>>> from rpy import r
>>> a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> b = [2, 4, 20, 40, 200, 400, 2000, 4000, 20000, 40000]
>>> prob = [ x / 5.0 for x in range(6)]
>>> br = r.quantile(a, prob)
>>> rcut = r.cut(a, br, include_lowest=r.TRUE)
>>> quintile_means = r.tapply(b, rcut, r.mean)
>>> print quintile_means
[30.0, 300.0, 3000.0, 30000.0, 3.0]
注意,最后一个列表的顺序不对(我们知道这是因为
a
和b
在本例中都是顺序的)。一般来说,我只是没有办法恢复正确的顺序从最低分位数到最高分位数的Rpy。有什么建议吗?另外(不是替代,因为我想知道上述问题的答案),如果您可以建议一种在python中直接执行分析的方法,那也会很好。(我没有安装numpy或scipy。)Thx!
编辑:为了澄清,
a
和b
是成对的,但不一定是有序的。例如,a
是眼睛的大小,b
是鼻子的大小。我试图找出,在不同的分位数中,对应的是什么,谢谢。 最佳答案
如果您不需要标签(例如:(8.2,10]
),则可以用cut
调用labels=FALSE
。这应该保持秩序(并免费加速您的代码)。