相对于简单描述性分析来讲,回归可以说是数据分析里一大杀器。因为回归掌握了预测部分的很大一方领地。用R语言做起回归方程来更是变化多样接下来让我们先简单了解下回归方程的各种变种与应用场景。
简单线性 用一个量化的解释变量预测一个量化的响应变量
多项式 用一个量化的解释变量预测一个量化的响应变量,模型的关系是 n 阶多项式
多层 用拥有等级结构的数据预测一个响应变量(例如学校中教室里的学生)。也被称为分层模型、嵌套模
型或混合模型
多元线性 用两个或多个量化的解释变量预测一个量化的响应变量
多变量 用一个或多个解释变量预测多个响应变量
Logistic 用一个或多个解释变量预测一个类别型响应变量
泊松 用一个或多个解释变量预测一个代表频数的响应变量
Cox 比例风险 用一个或多个解释变量预测一个事件(死亡、失败或旧病复发)发生的时间
时间序列 对误差项相关的时间序列数据建模
非线性 用一个或多个量化的解释变量预测一个量化的响应变量,不过模型是非线性的
非参数 用一个或多个量化的解释变量预测一个量化的响应变量,模型的形式源自数据形式,不事先设定
稳健 用一个或多个量化的解释变量预测一个量化的响应变量,能抵御强影响点的干扰
OK~了解了回归的定义与其应用场景情况下 下面让我们了解下回归所应用的函数。
在R中,拟合线性模型最基本的函数就是lm(),格式为:
myfit <- lm(formula, data)
拟合常用辅助函数
summary() 展示拟合模型的详细结果
coefficients() 列出拟合模型的模型参数(截距项和斜率)
confint() 提供模型参数的置信区间(默认 95%)
fitted() 列出拟合模型的预测值
residuals() 列出拟合模型的残差值
anova() 生成一个拟合模型的方差分析表,或者比较两个或更多拟合模型的方差分析表
vcov() 列出模型参数的协方差矩阵
AIC() 输出赤池信息统计量
回归的拟合结果也可以结合散点图用abline()函数表达