我使用HMeasure软件包将LDA纳入我的信用风险分析中。我有11000个观察点,并且选择了年龄和收入来进行分析。我不知道如何解释LDA的R结果。因此,我不知道我是否根据信用风险选择了最佳变量。
我在代码下方显示给您。

lda(default ~ ETA, data = train)

Prior probabilities of groups:
       0         1
0.4717286 0.5282714

Group means:
      ETA
0 34.80251
1 37.81549

Coefficients of linear discriminants:
         LD1
ETA 0.1833161
lda(default~ ETA + Stipendio,  train)

Call:
lda(default ~ ETA + Stipendio, data = train)

Prior probabilities of groups:
       0         1
0.4717286 0.5282714

Group means:
      ETA Stipendio
0 34.80251  1535.531
1 37.81549  1675.841

Coefficients of linear discriminants:
                 LD1
ETA       0.148374799
Stipendio 0.001445174
lda(default~ ETA, train)
ldaP <- predict(lda, data= test)

其中,ETA = AGE,STIPENDIO = INCOME

非常感谢!

最佳答案

LDA使用每个类别的均值和方差,以在它们之间创建线性边界(或分隔线)。该边界由系数限定。

您有两种不同的模型,一种依赖于变量ETA,另一种依赖于ETAStipendio

您可以看到的第一件事是Prior probabilities of groups。这些概率是您的训练数据中已经存在的概率。 IE。您的训练数据的47.17%对应的信用风险评估为0,而52.82%的训练数据对应的信用风险评估为1。(我假设0表示“无风险”,而1表示“风险”)。这些概率在两个模型中都是相同的。

您可以看到的第二件事是组均值,它是每个类中每个预测变量的平均值。这些值可能表明变量ETA对风险信用(37.8154)的影响可能比对非风险信用(34.8025)的影响稍大。在第二个模型中,变量Stipendio也会发生这种情况。

在第一个模型中计算出的ETA系数为0.1833161。这意味着将通过以下公式指定两个不同类之间的边界:

y = 0.1833161 * ETA

这可以由以下line表示(x表示变量ETA)。信用风险为0或1取决于行的哪一侧。

r - LDA解释-LMLPHP

您的第二个模型包含两个因变量ETAStipendio,因此类之间的边界将由以下公式界定:
y = 0.148374799 * ETA + 0.001445174 * Stipendio

如您所见,此公式表示plane。 (x1表示ETA,而x2表示Stipendio)。与以前的模型一样,此平面代表了风险信用和非风险信用之间的差异。

r - LDA解释-LMLPHP

在第二个模型中,ETA系数比Stipendio系数大得多,这表明前一个变量对信用风险的影响大于后一个变量。

我希望这有帮助。

关于r - LDA解释,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40087417/

10-12 19:02