我创建了一个包含3个线性回归组件的数据框下降
x1=runif(50, min=0, max=100)
e1=runif(50, min=0, max=10)
y1 <- 0.2*x1+10+e1
y1
plot(x1,y1,col="blue")
df1 <- data.frame(x=x1,y=y1)
df1$ID <- 1
df1$col <- "red"
x2=runif(25, min=0, max=100)
e2=runif(25, min=0, max=5)
y2 <- 0.7*x2+15+e2
y2
plot(x2,y2,col="blue")
df2 <- data.frame(x=x2,y=y2)
df2$ID <- 2
df2$col <- "green"
x3=runif(35, min=0, max=100)
e3=runif(35, min=0, max=15)
y3 <- -0.5*x3+30+e3
y3
plot(x3,y3,col="blue")
df3 <- data.frame(x=x3,y=y3)
df3$ID <- 3
df3$col <- "blue"
dfall <-rbind(df1,df2,df3)
dfall
dfall <- dfall[sample(1:nrow(dfall)), ]
dfall
plot(dfall$x,dfall$y,col=dfall$col)
然后,我尝试使用kmeans分离线性回归分量:
fitkm <- kmeans(dfall[,c(1:2)], 3)
dfall <- data.frame(dfall, km=fitkm$cluster)
dfall
但是我得到的分类结果很差:
table(dfall$ID,dfall$km)
有没有一种更好的方法可以准确地分离出3个线性回归分量?
谢谢您的帮助。
最佳答案
给定您的示例,您可能需要研究有限的混合模型,这将使您能够恢复基础回归和分类中的参数。这是您的数据的示例:
library(mixtools)
mixmod <- regmixEM(dfall$y, dfall$x, k=3)
summary(mixmod)
输出为您提供每种观察类型的比例和系数-lambda是混合比例,beta1是截距,beta2是系数。与模拟数据的匹配非常好:
summary of regmixEM object:
comp 1 comp 2 comp 3
lambda 0.315816 0.457191 0.226992
sigma 3.758362 2.463029 1.259267
beta1 36.675001 14.031268 17.338412
beta2 -0.507215 0.213874 0.699148
loglik at estimate: -357.4478
给定类别的观察值分配存储在
mixmod
对象中的mixmod$posterior
概率矩阵中。如果我们提取分配的类并将其与真实的类进行比较,则拟合度非常好(请记住,混合模型分配给类的名称是任意的,此处comp 1是ID 3 obvs,等等):predclass <- unlist(apply(mixmod$posterior, 1, function(x){names(which.max(x))}))
table(dfall$ID, predclass)
predclass
comp.1 comp.2 comp.3
1 2 48 0
2 0 0 25
3 31 4 0
R here中对混合模型及其实现有很好的概述和解释。
关于r - R从混合物中分离出3个线性回归分量,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41893831/