我在条件语句/布尔索引方面遇到了麻烦。我试图用逻辑填充一个数据帧(dfp),这个逻辑的条件是来自形状相似的数据帧(dfs)的数据加上它本身的前一行(dfp)。
这是我最近一次失败。。。

import pandas as pd
dfs = pd.DataFrame({'a':[1,0,-1,0,1,0,0,-1,0,0],'b':[0,1,0,0,-1,0,1,0,-1,0]})

In [171]: dfs
Out[171]:
       a  b
    0  1  0
    1  0  1
    2 -1  0
    3  0  0
    4  1 -1
    5  0  0
    6  0  1
    7 -1  0
    8  0 -1
    9  0  0

dfp = pd.DataFrame(index=dfs.index,columns=dfs.columns)

dfp[(dfs==1)|((dfp.shift(1)==1)&(dfs!=-1))] = 1

In [166]: dfp.fillna(0)
Out[166]:
     a    b
0  1.0  0.0
1  0.0  1.0
2  0.0  0.0
3  0.0  0.0
4  1.0  0.0
5  0.0  0.0
6  0.0  1.0
7  0.0  0.0
8  0.0  0.0
9  0.0  0.0

因此,如果满足以下两个条件之一,我希望dfp的第n行为1:
1) dfs same row = 1 or 2) both dfp previous row = 1 and dfs same row <> -1

我希望我的最终输出如下所示:
   a  b
0  1  0
1  1  1
2  0  1
3  0  1
4  1  0
5  1  0
6  1  1
7  0  1
8  0  0
9  0  0

更新/编辑:
有时,可视化更有用-下面是它在Excel中的映射方式。
python - python-受​​ Pandas 条件和/或 boolean 索引困扰-LMLPHP
提前谢谢,非常感谢您的时间。

最佳答案

让我们总结一下不变量:
如果dfs值为1,则dfp值为1
如果dfs值为-1,则dfp值为0
如果dfs值为0,则如果先前的dfp值为1,则dfp值为1,否则为0
或者用另一种方式表述:
如果第一个值是dfp,则11开头,否则0
dfp值是0直到1中有一个dfs为止。
dfp值是1直到-1中有一个dfs为止。
这在python中很容易表述:

def create_new_column(dfs_col):
    newcol = np.zeros_like(dfs_col)
    if dfs_col[0] == 1:
        last = 1
    else:
        last = 0
    for idx, val in enumerate(dfs_col):
        if last == 1 and val == -1:
            last = 0
        if last == 0 and val == 1:
            last = 1
        newcol[idx] = last

    return newcol

还有测试:
>>> create_new_column(dfs.a)
array([1, 1, 0, 0, 1, 1, 1, 0, 0, 0], dtype=int64)
>>> create_new_column(dfs.b)
array([0, 1, 1, 1, 0, 0, 1, 1, 0, 0], dtype=int64)

然而,这在Python中是非常低效的,因为在numpy数组(和pandas系列/数据帧)上迭代很慢,Python中的for-循环也是低效的。
但是,如果您有numbaCython可以编译它,并且它可能比任何NumPy解决方案都要快,因为NumPy需要几个滚动和/或累积操作。
例如,使用numba:
>>> import numba
>>> numba_version = numba.njit(create_new_column)  # compilation step

>>> numba_version(np.asarray(dfs.a))  # need cast to np.array
array([1, 1, 0, 0, 1, 1, 1, 0, 0, 0], dtype=int64)
>>> numba_version(np.asarray(dfs.b))  # need cast to np.array
array([0, 1, 1, 1, 0, 0, 1, 1, 0, 0], dtype=int64)

即使dfs有数百万行,numba解决方案也只需要几毫秒:
>>> dfs = pd.DataFrame({'a':np.random.randint(-1, 2, 1000000),'b':np.random.randint(-1, 2, 1000000)})
>>> %timeit numba_version(np.asarray(dfs.b))
100 loops, best of 3: 9.37 ms per loop

关于python - python-受​​ Pandas 条件和/或 boolean 索引困扰,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43509953/

10-10 14:44