我有一个很长的excel文件,其中记录了一年中60分钟的降雨量。我希望读入excel文件,汇总每日总降雨量的降雨量值(group.by效果很好),然后将这些值放入新的数据框中,其中一年中的每一天都是与0分开的一行如果当天没有下雨,则为每日总降雨量的Value。我已经概述了我将要执行的步骤以及在以下代码中的尝试。如果我尝试编写的代码很垃圾,我愿意接受其他建议。 excel文件的第一行如下所示:

60 Minute Counts, []
Time Stamp  Latitude    Longitude   Value ()
Dec 27 2015 01:30:00 AM 0.297   36.900  0.25
Dec 25 2015 01:00:00 PM 0.297   36.900  0.51
Dec 25 2015 10:30:00 AM 0.297   36.900  0.25
Dec 25 2015 07:30:00 AM 0.297   36.900  0.25
Dec 25 2015 05:00:00 AM 0.297   36.900  0.25
Dec 25 2015 04:30:00 AM 0.297   36.900  0.25
Dec 17 2015 02:30:00 AM 0.297   36.900  0.25
Dec 16 2015 02:30:00 PM 0.297   36.900  0.25
Dec 16 2015 02:00:00 PM 0.297   36.900  0.76
Dec 16 2015 12:30:00 PM 0.297   36.900  0.25
Dec 16 2015 12:00:00 PM 0.297   36.900  0.76
Dec 16 2015 11:30:00 AM 0.297   36.900  5.08
Dec 16 2015 11:00:00 AM 0.297   36.900  0.51
Dec 15 2015 03:30:00 PM 0.297   36.900  0.25


然后,我需要读入我玩过的excel文件:

from openpyxl import load_workbook

wb = load_workbook(filename = 'filename.xlsx')
sheet_ranges = wb['60 minute counts']


但是我不确定如何在3+行中读取实际值。

在为df0Time Stamp列定义数据框Value ()之后,我需要将Time Stamp转换为YYYY-MM-DD之类的格式,可以使用以下代码:

import pandas as pd
df0["time"] = pd.to_datetime(df0["time"])
df0["day"] = df0['time'].map(lambda x: x.day)
df0["month"] = df0['time'].map(lambda x: x.month)
df0["year"] = df0['time'].map(lambda x: x.year)


然后,我需要通过以下方式将60分钟的降雨量合并为每日总降雨量:

df1 = df0.groupby(['Value ()', 'day', 'month', 'year'], as_index=False).sum()


最后,我需要制作一个数据框,该数据框在一年中的每一天都有一行,然后是每天的总降雨量。它看起来像这样:

Date    Value
2015-12-31  0
2015-12-30  0
2015-12-29  0
2015-12-28  0
2015-12-27  0.25
2015-12-26  0
2015-12-25  1.52
2015-12-24  0
2015-12-23  0
2015-12-22  0
2015-12-21  0
2015-12-20  0
2015-12-19  0
2015-12-18  0
2015-12-17  0.25
2015-12-16  7.62


... 等等

让我知道发布整个文件是否有帮助,我可以添加一个保管箱链接。

最佳答案

看来您需要resample

df0.index = pd.to_datetime(df0["Time Stamp"])

df1 = df0.resample('D')['Value ()'].sum().fillna(0).reset_index()
print (df1)
   Time Stamp  Value ()
0  2015-12-15      0.25
1  2015-12-16      7.61
2  2015-12-17      0.25
3  2015-12-18      0.00
4  2015-12-19      0.00
5  2015-12-20      0.00
6  2015-12-21      0.00
7  2015-12-22      0.00
8  2015-12-23      0.00
9  2015-12-24      0.00
10 2015-12-25      1.51
11 2015-12-26      0.00
12 2015-12-27      0.25


groupbyGrouper

df0.index = pd.to_datetime(df0["Time Stamp"])

df1 = df0.groupby(pd.Grouper(freq='D'))['Value ()'].sum().fillna(0).reset_index()
print (df1)
   Time Stamp  Value ()
0  2015-12-15      0.25
1  2015-12-16      7.61
2  2015-12-17      0.25
3  2015-12-18      0.00
4  2015-12-19      0.00
5  2015-12-20      0.00
6  2015-12-21      0.00
7  2015-12-22      0.00
8  2015-12-23      0.00
9  2015-12-24      0.00
10 2015-12-25      1.51
11 2015-12-26      0.00
12 2015-12-27      0.25


并根据需要添加sort_index

df1 = df0.resample('D')['Value ()'].sum().sort_index(ascending=False).fillna(0).reset_index()
print (df1)
   Time Stamp  Value ()
0  2015-12-27      0.25
1  2015-12-26      0.00
2  2015-12-25      1.51
3  2015-12-24      0.00
4  2015-12-23      0.00
5  2015-12-22      0.00
6  2015-12-21      0.00
7  2015-12-20      0.00
8  2015-12-19      0.00
9  2015-12-18      0.00
10 2015-12-17      0.25
11 2015-12-16      7.61
12 2015-12-15      0.25


df1 = df0.groupby(pd.Grouper(freq='D'))['Value ()'].sum()
         .sort_index(ascending=False).fillna(0).reset_index()
print (df1)
   Time Stamp  Value ()
0  2015-12-27      0.25
1  2015-12-26      0.00
2  2015-12-25      1.51
3  2015-12-24      0.00
4  2015-12-23      0.00
5  2015-12-22      0.00
6  2015-12-21      0.00
7  2015-12-20      0.00
8  2015-12-19      0.00
9  2015-12-18      0.00
10 2015-12-17      0.25
11 2015-12-16      7.61
12 2015-12-15      0.25

关于python - 使用groupby重新格式化Excel数据,并在python中将空白行添加到数据框,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42805367/

10-10 18:46
查看更多