我有以下Python数据帧:

Type    Actual  Predicted
A       4       3
A       10      18
A       13      11
B       3       10
B       4       2
B       8       33
C       20      17
C       40      33
C       87      80
C       32      30

我有计算r^2和rmse的代码,但我不知道如何按不同的“类型”计算它。
目前,我的方法是将较大的表分解成三个较小的表,这些表只包含a、b、c值,然后从每个较小的表中计算r^2和rmse……然后再将它们添加到一起。
但上述方法效率低下,我相信应该有一个更简单的方法?
下面是我希望在分组时生成结果的格式:
Type    R^2     RMSE
A       value   value
B       value   value
C       value   value

最佳答案

这里有一个groupby方法:

import numpy as np
import pandas as pd
from sklearn.metrics import r2_score, mean_squared_error

def r2_rmse( g ):
    r2 = r2_score( g['Actual'], g['Predicted'] )
    rmse = np.sqrt( mean_squared_error( g['Actual'], g['Predicted'] ) )
    return pd.Series( dict(  r2 = r2, rmse = rmse ) )

your_df.groupby( 'Type' ).apply( r2_rmse ).reset_index()

关于python - Python数据框:使用Groupby在一列上计算R ^ 2和RMSE,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47914428/

10-12 18:41