我有一个DataFrame,其中有两个Timestamp列,其中一个用作重新采样的索引,另一个保留为一列。如果我对DataFrame重新采样,则剩下的一列将被删除。我希望对其进行重新采样,就好像它是一个数字列一样(实际上是这样):

import numpy as np
import pandas as pd
init_time=pd.date_range(start='2010-01-01 00:00', end='2010-01-05 00:00', freq='12H')
valid_time=pd.date_range(start='2010-01-01 00:00', end='2010-01-05 00:00', freq='12H')
data = np.random.random(len(valid_time))
frame = pd.DataFrame(index=valid_time, data=data)
frame['init_time'] = init_time

DataFrame具有一个索引,1个数字列和一个Timestamp列
                     0          init_time
2010-01-01 00:00:00  0.869667   2010-01-01 00:00:00
2010-01-01 12:00:00  0.225805   2010-01-01 12:00:00
2010-01-02 00:00:00  0.348080   2010-01-02 00:00:00
2010-01-02 12:00:00  0.761399   2010-01-02 12:00:00
2010-01-03 00:00:00  0.645069   2010-01-03 00:00:00
2010-01-03 12:00:00  0.133111   2010-01-03 12:00:00
2010-01-04 00:00:00  0.314302   2010-01-04 00:00:00
2010-01-04 12:00:00  0.130491   2010-01-04 12:00:00
2010-01-05 00:00:00  0.621703   2010-01-05 00:00:00

现在,每天重新采样:
daily = frame.resample('D', how='mean')

             0
2010-01-01   0.547736
2010-01-02   0.554740
2010-01-03   0.389090
2010-01-04   0.222396
2010-01-05   0.621703

我的init_time列已删除。我可以先将其转换为原始整数列,但是有更简单的方法吗?

最佳答案

这不是针对日期时间(均值)实现的,但是您可以通过以下方式实现:

获取数值结果

In [48]: numeric = frame.resample('D',how='mean')

获取类似日期的结果。首先获取类似日期的列
In [49]: datelike = frame.loc[:,frame.dtypes.isin([np.dtype('datetime64[ns]')])]

然后重新采样;您需要将它们视为整数以对其进行计算;时间戳将处理此浮点输入(基本上四舍五入到最接近的纳秒)
In [50]: datelike = datelike.resample('D',
         how=lambda x: Timestamp(x.view('i8').mean()))

把它们放在一起
In [51]: concat([numeric,datelike],axis=1)
Out[51]:
                   0           init_time
2010-01-01  0.798880 2010-01-01 06:00:00
2010-01-02  0.859781 2010-01-02 06:00:00
2010-01-03  0.515503 2010-01-03 06:00:00
2010-01-04  0.505557 2010-01-04 06:00:00
2010-01-05  0.979835 2010-01-05 00:00:00

[5 rows x 2 columns]

关于python - Pandas 在重新采样中删除时间戳列,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/21878599/

10-11 22:03