我有一些代码可以解析多个.CVS文件,检索几列的所有数据,然后将数据放在数据帧(称为dfs)中。我现在试图返回仅在两个日期之间的dfs中的所有数据字段。

我正在尝试使用以下命令:

return dfs[(dfs['date'] >= startDate) & (dfs['date'] <= endDate)]


但出现以下错误:

KeyError: 'date'


有人可以让我知道我做错了吗?
请参阅下面的代码:

def getTimeseriesData(path,column_num,startDate,endDate):
    colNames = ['date']
    dfs = []

    allfiles = glob.glob(os.path.join(path, "*.csv"))
    for fname in allfiles:

        name = os.path.splitext(fname)[0]
        name = os.path.split(name)[1]
        colNames.append(name)

        df = pd.read_csv(fname, header=None, usecols=[0, column_num,4,5],
                        parse_dates=[0], dayfirst=True,
                        index_col=[0], names=['date', name+'_LAST',name+'_VOLUME',name+'_MKTCAP'])

        df = df.groupby(level=0).agg('mean')

        dfs.append(df)

    dfs = pd.concat(dfs, axis=1)

    return dfs[(dfs['date'] >= startDate) & (dfs['date'] <= endDate)] #<<--I think this is the problem


dfs的头(我想从中返回两个日期(例如2001-01-03和2001-01-05之间)的数据)如下所示:

            BBG.XLON.BTA.S_LAST  BBG.XLON.BTA.S_VOLUME  BBG.XLON.BTA.S_MKTCAP  \
date
2001-01-02                  572               26605510               37494.60
2001-01-03                  560               24715470               36708.00
2001-01-04                  613               52781855               40182.15
2001-01-05                  630               56600152               41296.50
2001-01-08                  633               41014402               41493.15

            BBG.XLON.VOD.S_LAST  BBG.XLON.VOD.S_VOLUME  BBG.XLON.VOD.S_MKTCAP
date
2001-01-02                  NaN                    NaN                    NaN
2001-01-03               225.00              444328736            145216.0020
2001-01-04               239.00              488568000            154251.6643
2001-01-05               242.25              237936704            156349.2288
2001-01-08               227.75              658059776            146990.8642

最佳答案

这里的date是您的索引名称,而不是列名称:

更改:

return dfs[(dfs['date'] >= startDate) & (dfs['date'] <= endDate)]


变成:

return dfs[(dfs.index >= startDate) & (dfs.index <= endDate)]

关于python - 返回两个日期之间的数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36809190/

10-13 00:08
查看更多