我想改造以下DTM
pd.DataFrame({"ID": [1,2,3,4,5],
"t1": [0,0,1,1,0],
"t2": [1,1,0,0,0],
"t3": [1,0,1,0,0],
"t4": [0,0,0,0,0]})
到这个DF
pd.DataFrame({"ID": [1,2,3,4,5],
"text": ["t2, t3", "t2", "t1, t3", "t1", ""]})
>> 1 t2, t3
2 t2
3 t1, t3
我的尝试是以下脚本
for col in df.columns: df = np.where(df[col] == 1, col, "")
df.apply(lambda x: " ".join(x), axis=1).str.split().apply(lambda x: ", ".join(x))
但我想知道是否还有更pythonic的方式来做到这一点
最佳答案
将DataFrame.dot
与按filter
的过滤器列或按iloc
的位置一起使用:
df1 = df.filter(like='t')
#df1 = df.iloc[:, 1:]
df = df[['ID']].join(df1.dot(df1.columns + ', ').str[:-2].rename('new'))
print (df)
ID new
0 1 t2, t3
1 2 t2
2 3 t1, t3
3 4 t1
4 5
或通过
set_index
:df1 = df.set_index('ID')
df = df1.dot(df1.columns + ', ').str[:-2].reset_index(name='new')
print (df)
ID new
0 1 t2, t3
1 2 t2
2 3 t1, t3
3 4 t1
4 5