我有一列带有客户名称的列,当客户有2种产品时,该列将重复。我必须创建一个新状态,以根据情况将客户状态分组为一个。因此,我必须将客户X与另一个X进行比较,以产生一个新的状态。
Customer|Status |Cancaled_at|new status
X |Active |- |
X |Canceled|2019-xx-xx |
Y |Active |- |
Z |Active |- |
A |Canceled|- |
所需的输出:
Customer|Status |Cancaled_at|new status
X |Active |- |Canceled
X |Canceled|2019-xx-xx |Canceled
Y |Active |- |
Z |Active |- |
A |Canceled|- |
最佳答案
有一种简单的方法可以找到熊猫中所有重复的值:
df['new_status'][(df.duplicated('Customer', False))] = 'Canceled'
这使得
new_status
列Canceled
数据框的“客户”列具有重复的值。关于python - 比较 Pandas 列中的两个重复值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55218249/