使用pandas cut,我可以通过提供边缘来定义垃圾箱,而pandas可以创建类似于(a, b]
的垃圾箱。
我的问题是如何对垃圾箱进行排序(从最低到最高)?
import numpy as np
import pandas as pd
y = pd.Series(np.random.randn(100))
x1 = pd.Series(np.sign(np.random.randn(100)))
x2 = pd.cut(pd.Series(np.random.randn(100)), bins = [-3, -0.5, 0, 0.5, 3])
model = pd.concat([y, x1, x2], axis = 1, keys = ['Y', 'X1', 'X2'])
我有一个中间结果,其中保留了垃圾箱的顺序
int_output = model.groupby(['X1', 'X2']).mean().unstack()
int_output.columns = int_output.columns.get_level_values(1)
X2 (-3, -0.5] (-0.5, 0] (0, 0.5] (0.5, 3]
X1
-1.0 0.101475 -0.344419 -0.482992 -0.015179
1.0 0.249961 0.484757 -0.066383 -0.249414
但是随后我执行了其他操作,可以任意更改垃圾箱的顺序:
output = pd.concat(int_output.to_dict('series'), axis = 1)
(-0.5, 0] (-3, -0.5] (0, 0.5] (0.5, 3]
X1
-1.0 -0.344419 0.101475 -0.482992 -0.015179
1.0 0.484757 0.249961 -0.066383 -0.249414
现在,我想在条形图中绘制数据,但我希望将箱柜从最低的(-3,-0.5]到最高的(0.5,3]进行排序。
我想我可以通过操纵字符串,在“,”上分割然后清洁方括号来实现此目的,但是我想知道是否有更好的方法。
最佳答案
主要的问题是丢失ordered
CategoricalIndex
。
np.random.seed(12456)
y = pd.Series(np.random.randn(100))
x1 = pd.Series(np.sign(np.random.randn(100)))
x2 = pd.cut(pd.Series(np.random.randn(100)), bins = [-3, -0.5, 0, 0.5, 3])
model = pd.concat([y, x1, x2], axis = 1, keys = ['Y', 'X1', 'X2'])
int_output = model.groupby(['X1', 'X2']).mean().unstack()
int_output.columns = int_output.columns.get_level_values(1)
print (int_output)
X2 (-3, -0.5] (-0.5, 0] (0, 0.5] (0.5, 3]
X1
-1.0 0.230060 -0.079266 -0.079834 -0.064455
1.0 -0.451351 0.268688 0.020091 -0.280218
print (int_output.columns)
CategoricalIndex(['(-3, -0.5]', '(-0.5, 0]', '(0, 0.5]', '(0.5, 3]'],
categories=['(-3, -0.5]', '(-0.5, 0]', '(0, 0.5]', '(0.5, 3]'],
ordered=True, name='X2', dtype='category')
output = pd.concat(int_output.to_dict('series'), axis = 1)
print (output)
(-0.5, 0] (-3, -0.5] (0, 0.5] (0.5, 3]
X1
-1.0 -0.079266 0.230060 -0.079834 -0.064455
1.0 0.268688 -0.451351 0.020091 -0.280218
print (output.columns)
Index(['(-0.5, 0]', '(-3, -0.5]', '(0, 0.5]', '(0.5, 3]'], dtype='object')
一个可能的解决方案是
extract
中的 output.columns
第一个数字,创建帮助器Series并对其进行排序。最后 reindex
个原始列:cat = output.columns.str.extract('\((.*),', expand=False).astype(float)
a = pd.Series(cat, index=output.columns).sort_values()
print (a)
(-3, -0.5] -3.0
(-0.5, 0] -0.5
(0, 0.5] 0.0
(0.5, 3] 0.5
dtype: float64
output = output.reindex(columns=a.index)
print (output)
(-3, -0.5] (-0.5, 0] (0, 0.5] (0.5, 3]
X1
-1.0 0.230060 -0.079266 -0.079834 -0.064455
1.0 -0.451351 0.268688 0.020091 -0.280218
关于python - 排序 Pandas 切的垃圾箱,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43251277/