TL:DR-如何基于包含特定文本的列,从现有非索引数据框中的一个或多个列创建数据框/系列?

对Python和数据分析而言相对较新,并且(这是我第一次在Stack Overflow上发布问题,但是我一直在寻找答案很长时间(并且习惯于定期编写代码),但没有成功。

我有一个从没有命名/索引列的Excel文件导入的数据框。我正在尝试从近2000个文件中成功提取数据,这些文件的数据列稍有不同(当然-为什么要使其简单...或遵循模板...或仅使用格式较差的Excel电子表格以外的其他内容)。 ..)。

原始数据帧(来自结构不良的XLS文件)看起来像这样:

0                                       NaN             RIGHT      NaN
1                                      Date              UCVA      Sph
2                       2007-01-13 00:00:00              6/38  [-2.00]
3                       2009-11-05 00:00:00               6/9      NaN
4                       2009-11-18 00:00:00              6/12      NaN
5                       2009-12-14 00:00:00               6/9  [-1.25]
6                       2018-04-24 00:00:00           worn CL  [-5.50]

           3     4      5                 6     7     8        9   \
0         NaN   NaN    NaN               NaN   NaN   NaN      NaN
1         Cyl  Axis  BSCVA  Pentacam remarks    K1    K2  K2 back
2     [-2.75]    65    6/9               NaN   NaN   NaN      NaN
3         NaN   NaN    NaN               NaN   NaN   NaN      NaN
4         NaN   NaN    6/5         Pentacam     46  43.9     -6.6
5     [-5.75]    60  6/6-1               NaN   NaN   NaN      NaN
6     [+7.00}   170  6/7.5               NaN   NaN   NaN      NaN

           ...              17                18    19    20       21     22  \
0          ...             NaN               NaN   NaN   NaN      NaN    NaN
1          ...           BSCVA  Pentacam remarks    K1    K2  K2 back  K max
2          ...             6/5               NaN   NaN   NaN      NaN    NaN
3          ...             NaN               NaN   NaN   NaN      NaN    NaN
4          ...             NaN          Pentacam  44.3  43.7     -6.2   45.5
5          ...           6/4-4               NaN   NaN   NaN      NaN    NaN
6          ...             6/5               NaN   NaN   NaN      NaN    NaN


我想提取一组数据框/系列,然后可以将它们组合在一起以获得一个``整洁''的数据框,例如:

1                                      Date              R-UCVA      R-Sph
2                       2007-01-13 00:00:00              6/38  [-2.00]
3                       2009-11-05 00:00:00               6/9      NaN
4                       2009-11-18 00:00:00              6/12      NaN
5                       2009-12-14 00:00:00               6/9  [-1.25]
6                       2018-04-24 00:00:00           worn CL  [-5.50]

1       R-Cyl R-Axis R-BSCVA  R-Penta          R-K1   R-K2  R-K2 back
2     [-2.75]    65    6/9               NaN   NaN   NaN      NaN
3         NaN   NaN    NaN               NaN   NaN   NaN      NaN
4         NaN   NaN    6/5         Pentacam     46  43.9     -6.6
5     [-5.75]    60  6/6-1               NaN   NaN   NaN      NaN
6     [+7.00}   170  6/7.5               NaN   NaN   NaN      NaN


等等。因此,我尝试编写一些代码,这些代码将通过查找单词“ Date”或“ UCVA”等拉出我定义的一系列列。然后,我计划将它们重新缝在一起带有患者标识符的数据框作为额外的列。然后循环浏览所有XLS文件,将全部文件添加到一个CSV文件中,然后我就可以做一些有用的事情(例如放入Access数据库中-是的,我知道,但是它必须易于使用并且已经安装在NHS计算机上-和统计分析)。

有什么建议么?我希望有足够的信息。

首先十分感谢。

亲切的问候
维琪

最佳答案

在这里,希望可以帮助您入门。
我准备了一个text.xlsx文件:
python - 根据python/pandas数据框中单元格的文本内容选择一个(未索引)列-LMLPHP
我可以阅读如下

    path = 'text.xlsx'

    df = pd.read_excel(path, header=[0,1])

    # Deal with two levels of headers, here I just join them together crudely
    df.columns = df.columns.map(lambda h: '  '.join(h))

    # Slight hack because I messed with the column names
    # I create two dataframes, one with the first column, one with the second column
    df1 = df[[df.columns[0],df.columns[1]]]
    df2 = df[[df.columns[0], df.columns[2]]]

    # Stacking them on top of each other
    result = pd.concat([df1, df2])
    print(result)

    #Merging them on the Date column
    result = pd.merge(left=df1, right=df2, on=df1.columns[0])
    print(result)


这给出了输出

  RIGHT  Sph RIGHT  UCVA       Unnamed: 0_level_0  Date
0        NaN              6/38      2007-01-13 00:00:00
1        NaN              6/37      2009-11-05 00:00:00
2        NaN              9/56      2009-11-18 00:00:00
0    [-2.00]               NaN      2007-01-13 00:00:00
1        NaN               NaN      2009-11-05 00:00:00
2        NaN               NaN      2009-11-18 00:00:00




  Unnamed: 0_level_0  Date RIGHT  UCVA       RIGHT  Sph
0      2007-01-13 00:00:00              6/38    [-2.00]
1      2009-11-05 00:00:00              6/37        NaN
2      2009-11-18 00:00:00              9/56        NaN


一些指针:
如何合并两个标题行?请参阅this问题和答案。

如何有条件地选择熊猫列?参见例如thisthis

如何合并数据框?熊猫doc中有很好的指南

关于python - 根据python/pandas数据框中单元格的文本内容选择一个(未索引)列,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/54654126/

10-12 17:33
查看更多