我有一列带有客户名称的列,当客户有2种产品时,该列将重复。我必须创建一个新状态,以根据情况将客户状态分组为一个。因此,我必须将客户X与另一个X进行比较,以产生一个新的状态。

Customer|Status  |Cancaled_at|new status
X       |Active  |-          |
X       |Canceled|2019-xx-xx |
Y       |Active  |-          |
Z       |Active  |-          |
A       |Canceled|-          |


所需的输出:

Customer|Status  |Cancaled_at|new status
X       |Active  |-          |Canceled
X       |Canceled|2019-xx-xx |Canceled
Y       |Active  |-          |
Z       |Active  |-          |
A       |Canceled|-          |

最佳答案

有一种简单的方法可以找到熊猫中所有重复的值:

df['new_status'][(df.duplicated('Customer', False))] = 'Canceled'


这使得new_statusCanceled数据框的“客户”列具有重复的值。

关于python - 比较 Pandas 列中的两个重复值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55218249/

10-11 21:39