我有一个包含 100 万行的 Pandas 数据框。我想用另一组值替换列中 900,000 行中的值。有没有没有 for 循环的快速方法(这需要我两天才能完成)?
例如,看看这个示例数据帧,我将 100 万行压缩为 8 行
import numpy as np
import pandas as pd
df = pd.DataFrame()
df['a'] = [-1,-3,-4,-4,-3, 4,5,6]
df['b'] = [23,45,67,89,0,-1, 2, 3]
L2 = [-1,-3,-4]
L5 = [9,10,11]
如果可能的话,我想一次性替换
a
为 -1、-3、-4 的值,或者在没有 for 循环的情况下尽可能快地替换值。关键部分是
L5
中的值必须根据需要重复。我试过了
df.loc[df.a < 0, 'a'] = L5
但这仅在
len(df.a.values) == len(L5)
时有效 最佳答案
通过 map
从两个 list
创建的字典使用 zip
,最后由 fillna
替换为原始非匹配值:
d = dict(zip(L2, L5))
print (d)
{-1: 9, -3: 10, -4: 11}
df['a'] = df['a'].map(d).fillna(df['a'])
print (df)
a b
0 9.0 23
1 10.0 45
2 11.0 67
3 11.0 89
4 10.0 0
5 4.0 -1
6 5.0 2
7 6.0 3
性能 :
这取决于替换
list
s 长度的 anf 的值的数量:list
的长度是 100
:np.random.seed(123)
N = 1000000
df = pd.DataFrame({'a':np.random.randint(1000, size=N)})
L2 = np.arange(100)
L5 = np.arange(100) + 10
In [336]: %timeit df['d'] = np.select([df['a'] == i for i in L2], L5, df['a'])
180 ms ± 1.07 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
In [337]: %timeit df['a'].map(dict(zip(L2, L5))).fillna(df['a'])
56.9 ms ± 2.55 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
如果列表的长度很小(例如
3
):np.random.seed(123)
N = 1000000
df = pd.DataFrame({'a':np.random.randint(100, size=N)})
L2 = np.arange(3)
L5 = np.arange(3) + 10
In [339]: %timeit df['d'] = np.select([df['a'] == i for i in L2], L5, df['a'])
11.9 ms ± 40.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
In [340]: %timeit df['a'].map(dict(zip(L2, L5))).fillna(df['a'])
54 ms ± 215 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
关于python - 在数据框中更改多个位置的最快方法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51636434/