python - 在 Pandas 中的非唯一(重复)细胞上传播值

我有以下数据框

import pandas as pd

df=pd.DataFrame({'Players': [ 'Sam', 'Greg', 'Steve', 'Sam',
                 'Jill', 'Bill', 'Nod', 'Mallory', 'Ping', 'Lamar'],
                 'Address': ['112 Fake St','13 Crest St','14 Main St','112 Fake St','2 Morningwood','7 Cotton Dr','14 Main St','20 Main St','7 Cotton Dr','7 Cotton Dr'],
                 'Status': ['Infected','','Dead','','','','','','','Infected'],
                 })

print(df)

我想将“感染”的状态值传播给同一地址内的每个人。

这意味着，如果同一地址中有多个人且一个人的状态被感染，那么每个人都将具有此状态。

因此结果将如下所示：

df2=pd.DataFrame({'Players': [ 'Sam', 'Greg', 'Steve', 'Sam',
                 'Jill', 'Bill', 'Nod', 'Mallory', 'Ping', 'Lamar'],
                 'Address': ['112 Fake St','13 Crest St','14 Main St','112 Fake St','2 Morningwood','7 Cotton Dr','14 Main St','20 Main St','7 Cotton Dr','7 Cotton Dr'],
                 'Status': ['Infected','','Dead','Infected','','Infected','','','Infected','Infected'],
                 })

print(df2)

我该怎么做？到目前为止，我已经尝试过了：

df[df.duplicated("Address")]

但是它只选择后来的重复项，而不是全部

最佳答案

这是一种方法：

In [19]:
infected = df[df['Status']=='Infected'].set_index('Address')
df.loc[df['Address'].isin(infected.index),'Status'] = df['Address'].map(infected['Status']).fillna('')
df

Out[19]:
         Address  Players    Status
0    112 Fake St      Sam  Infected
1    13 Crest St     Greg
2     14 Main St    Steve      Dead
3    112 Fake St      Sam  Infected
4  2 Morningwood     Jill
5    7 Cotton Dr     Bill  Infected
6     14 Main St      Nod
7     20 Main St  Mallory
8    7 Cotton Dr     Ping  Infected
9    7 Cotton Dr    Lamar  Infected

因此，这首先构造了一个状态为“已感染”的df视图，然后将索引设置为地址，这将创建一个查找表，然后我们可以在map索引中使用infected查找地址并返回状态。

我在这里使用loc仅选择受感染索引中的地址，而使其他行保持不变。

关于python - 在 Pandas 中的非唯一(重复)细胞上传播值，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/30445883/