我从2个熊猫列创建了一个二进制矩阵

df:

ID_2  ID_1
1111  1
22222 2
33333 3
33333 4
44444 5
55555 6
55555 7
66666 8
66666 9
77777 10
77777 11
77777 12


使用:

A = pd.get_dummies(df.set_index('ID_1')['ID_2'].astype(str)).max(level=0)
print (A)


这将创建一个矩阵:

      22222 33333 44444 55555 66666 77777 11111
ID_2
1     0     0     0     0     0     0     1
2     1     0     0     0     0     0     0
3     0     1     0     0     0     0     0
4     0     1     0     0     0     0     0
5     0     0     1     0     0     0     0


....

一切正常-除了ID_1中的第一个唯一值位于最后一列之外。我需要像ID_2中一样保留值的顺序。

最佳答案

如果要重新排列列,我认为您需要这样做:

A = A.reindex_axis(['11111'] + list(A.columns[:-1]), axis=1)


编辑

您可以通过以下方式进行操作:

 from collections import OrderedDict
 cols = list(OrderedDict.fromkeys(list(df['ID_2'].values)))
 cols = [str(i) for i in cols]
 A = A.reindex_axis(cols, axis=1)


在这里,您以有序的方式保留了列的元素(并且没有重复),然后将它们用作标题

10-04 13:49