我有一个数据框,其中包含各天的值:

  day  value
    1   10.1
    2   15.4
    3   12.1
    4   14.1
    5   -9.7
    6    2.0
    8    3.4


每天没有必要设置一个值(在我的示例中,第7天缺失了),但是每天都不会超过一个。

我想向此数据框添加其他列,每行包含前一天的值,两天前的值,三天前的值,等等。结果将是:

  day  value  value-of-1  value-of-2  value-of-3
    1   10.1         NaN         NaN         NaN
    2   15.4        10.1         NaN         NaN
    3   12.1        15.4        10.1         NaN
    4   14.1        12.1        15.4        10.1
    5   -9.7        14.1        12.1        15.4
    6    2.0        -9.7        14.1        12.1
    8    3.4         NaN         2.0        -9.7


目前,我在原始数据框中添加了包含所需日期的列,然后使用该新列作为连接条件合并原始数据框。在对列进行一些重组之后,我得到了结果:

data = [[1, 10.1], [2, 15.4], [3, 12.1], [4, 14.1], [5, -9.7], [6, 2.0], [8, 3.4]]
df = pd.DataFrame(data, columns = ['day', 'value'])

def add_column_for_prev_day(df, day):
    df[f"day-{day}"] = df["day"] - day
    df = df.merge(df[["day", "value"]], how="left", left_on=f"day-{day}", right_on="day", suffixes=("", "_r")) \
        .drop(["day_r",f"day-{day}"],axis=1) \
        .rename({"value_r": f"value-of-{day}"}, axis=1)
    return df

df = add_column_for_prev_day(df, 1)
df = add_column_for_prev_day(df, 2)
df = add_column_for_prev_day(df, 3)


我想知道是否有更好,更快的方法来获得相同的结果,尤其是不必一遍又一遍地合并数据框。

简单的转变无济于事,因为有几天没有数据。

最佳答案

您可以使用:

m=df.set_index('day').reindex(range(df['day'].min(),df['day'].max()+1))
l=[1,2,3]
for i in l:
    m[f"value_of_{i}"] = m['value'].shift(i)
m.reindex(df.day).reset_index()




   day  value  value_of_1  value_of_2  value_of_3
0    1   10.1         NaN         NaN         NaN
1    2   15.4        10.1         NaN         NaN
2    3   12.1        15.4        10.1         NaN
3    4   14.1        12.1        15.4        10.1
4    5   -9.7        14.1        12.1        15.4
5    6    2.0        -9.7        14.1        12.1
6    8    3.4         NaN         2.0        -9.7

关于python - 将时间序列的先前条目写到其他列中,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59554874/

10-16 22:52