我正在尝试确定如何创建一个列来预先指示(X行)何时另一列中的值的下一次出现将与 Pandas 一起发生,而 Pandas 实际上执行以下功能(在这种情况下,X = 3):
df
rowid event indicator
1 True 1 # Event occurs
2 False 0
3 False 0
4 False 1 # Starts indicator
5 False 1
6 True 1 # Event occurs
7 False 0
除了对每一行进行迭代/递归循环外:
i = df.index[df['event']==True]
dfx = [df.index[z-X:z] for z in i]
df['indicator'][dfx]=1
df['indicator'].fillna(0)
但是,这似乎效率低下,是否有更简洁的方法来实现上述示例?谢谢
最佳答案
这是使用flatnonzero的基于NumPy
的方法:
X = 3
# ndarray of indices where indicator should be set to one
nd_ixs = np.flatnonzero(df.event)[:,None] - np.arange(X-1, -1, -1)
# flatten the indices
ixs = nd_ixs.ravel()
# filter out negative indices an set to 1
df['indicator'] = 0
df.loc[ixs[ixs>=0], 'indicator'] = 1
print(df)
rowid event indicator
0 1 True 1
1 2 False 0
2 3 False 0
3 4 False 1
4 5 False 1
5 6 True 1
6 7 False 0
通过广播的索引减法获得
nd_ixs
,其中event
是True
,最大范围是X
:print(nd_ixs)
array([[-2, -1, 0],
[ 3, 4, 5]], dtype=int64)
关于python - Pandas :如何创建一列来指示值,该值预先出现在另一列中时,要预先设置一定的行数?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59101298/