我有一个DataFrame,其中有两个Timestamp列,其中一个用作重新采样的索引,另一个保留为一列。如果我对DataFrame重新采样,则剩下的一列将被删除。我希望对其进行重新采样,就好像它是一个数字列一样(实际上是这样):
import numpy as np
import pandas as pd
init_time=pd.date_range(start='2010-01-01 00:00', end='2010-01-05 00:00', freq='12H')
valid_time=pd.date_range(start='2010-01-01 00:00', end='2010-01-05 00:00', freq='12H')
data = np.random.random(len(valid_time))
frame = pd.DataFrame(index=valid_time, data=data)
frame['init_time'] = init_time
DataFrame具有一个索引,1个数字列和一个Timestamp列
0 init_time
2010-01-01 00:00:00 0.869667 2010-01-01 00:00:00
2010-01-01 12:00:00 0.225805 2010-01-01 12:00:00
2010-01-02 00:00:00 0.348080 2010-01-02 00:00:00
2010-01-02 12:00:00 0.761399 2010-01-02 12:00:00
2010-01-03 00:00:00 0.645069 2010-01-03 00:00:00
2010-01-03 12:00:00 0.133111 2010-01-03 12:00:00
2010-01-04 00:00:00 0.314302 2010-01-04 00:00:00
2010-01-04 12:00:00 0.130491 2010-01-04 12:00:00
2010-01-05 00:00:00 0.621703 2010-01-05 00:00:00
现在,每天重新采样:
daily = frame.resample('D', how='mean')
0
2010-01-01 0.547736
2010-01-02 0.554740
2010-01-03 0.389090
2010-01-04 0.222396
2010-01-05 0.621703
我的
init_time
列已删除。我可以先将其转换为原始整数列,但是有更简单的方法吗? 最佳答案
这不是针对日期时间(均值)实现的,但是您可以通过以下方式实现:
获取数值结果
In [48]: numeric = frame.resample('D',how='mean')
获取类似日期的结果。首先获取类似日期的列
In [49]: datelike = frame.loc[:,frame.dtypes.isin([np.dtype('datetime64[ns]')])]
然后重新采样;您需要将它们视为整数以对其进行计算;时间戳将处理此浮点输入(基本上四舍五入到最接近的纳秒)
In [50]: datelike = datelike.resample('D',
how=lambda x: Timestamp(x.view('i8').mean()))
把它们放在一起
In [51]: concat([numeric,datelike],axis=1)
Out[51]:
0 init_time
2010-01-01 0.798880 2010-01-01 06:00:00
2010-01-02 0.859781 2010-01-02 06:00:00
2010-01-03 0.515503 2010-01-03 06:00:00
2010-01-04 0.505557 2010-01-04 06:00:00
2010-01-05 0.979835 2010-01-05 00:00:00
[5 rows x 2 columns]
关于python - Pandas 在重新采样中删除时间戳列,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/21878599/