我有如下数据集
df = pd.DataFrame({'numbers':range(9), 'group':['a', 'b', 'c']*3})
group numbers
0 a 0
1 b 1
2 c 2
3 a 3
4 b 4
5 c 5
6 a 6
7 b 7
8 c 8
我想创建向量
a = [0, 3, 6]
b = [1, 4, 7]
c = [2, 5, 8]
用于Kruskal-Wallis H检验python
stats.kruskal(a, b, c)
或类似R的数字(数字〜组)
最佳答案
我不熟悉Kruskal-Wallis测试的任何特殊要求,但是您可以通过以下方式将这些分组数组放入字典中来访问它们:
groupednumbers = {}
for grp in df['group'].unique():
groupednumbers[grp] = df['numbers'][df['group']==grp].values
print(groupednumbers)
*** {'c': array([2, 5, 8]), 'b': array([1, 4, 7]), 'a': array([0, 3, 6])}
也就是说,您可以通过显式调用
groupednumbers['a']
等或通过列表来获取向量:args = groupednumbers.values()
...或者如果您需要订购它们:
args = [groupednumbers[grp] for grp in sorted(df['group'].unique())]
然后打电话
stats.kruskal(*args)
或者,如果您需要实际的列表,则可以执行
list(df['numbers'][...].values
。)