我创建了一个包含3个线性回归组件的数据框下降

x1=runif(50, min=0, max=100)
e1=runif(50, min=0, max=10)
y1 <- 0.2*x1+10+e1
y1


plot(x1,y1,col="blue")


df1 <- data.frame(x=x1,y=y1)
df1$ID <- 1
df1$col <- "red"


x2=runif(25, min=0, max=100)
e2=runif(25, min=0, max=5)
y2 <- 0.7*x2+15+e2
y2


plot(x2,y2,col="blue")


df2 <- data.frame(x=x2,y=y2)
df2$ID <- 2
df2$col <- "green"


x3=runif(35, min=0, max=100)
e3=runif(35, min=0, max=15)
y3 <- -0.5*x3+30+e3
y3


plot(x3,y3,col="blue")


df3 <- data.frame(x=x3,y=y3)
df3$ID <- 3
df3$col <- "blue"


dfall <-rbind(df1,df2,df3)
dfall
dfall <- dfall[sample(1:nrow(dfall)), ]
dfall

plot(dfall$x,dfall$y,col=dfall$col)


然后,我尝试使用kmeans分离线性回归分量:

fitkm <- kmeans(dfall[,c(1:2)], 3)

dfall <- data.frame(dfall, km=fitkm$cluster)
dfall


但是我得到的分类结果很差:

table(dfall$ID,dfall$km)


有没有一种更好的方法可以准确地分离出3个线性回归分量?
谢谢您的帮助。

最佳答案

给定您的示例,您可能需要研究有限的混合模型,这将使​​您能够恢复基础回归和分类中的参数。这是您的数据的示例:

library(mixtools)
mixmod <- regmixEM(dfall$y, dfall$x, k=3)
summary(mixmod)


输出为您提供每种观察类型的比例和系数-lambda是混合比例,beta1是截距,beta2是系数。与模拟数据的匹配非常好:

summary of regmixEM object:
          comp 1    comp 2    comp 3
lambda  0.315816  0.457191  0.226992
sigma   3.758362  2.463029  1.259267
beta1  36.675001 14.031268 17.338412
beta2  -0.507215  0.213874  0.699148
loglik at estimate:  -357.4478


给定类别的观察值分配存储在mixmod对象中的mixmod$posterior概率矩阵中。如果我们提取分配的类并将其与真实的类进行比较,则拟合度非常好(请记住,混合模型分配给类的名称是任意的,此处comp 1是ID 3 obvs,等等):

predclass <- unlist(apply(mixmod$posterior, 1, function(x){names(which.max(x))}))
table(dfall$ID, predclass)
   predclass
    comp.1 comp.2 comp.3
  1      2     48      0
  2      0      0     25
  3     31      4      0


R here中对混合模型及其实现有很好的概述和解释。

关于r - R从混合物中分离出3个线性回归分量,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41893831/

10-12 17:09
查看更多