基础知识点梳理
模型评估
tips:准确率(A)、精确率(P)、召回率(R)、均方根误差、F1 score
tips:ROC曲线、P-R曲线、AUC(曲线下的面积)
提示:以下是本篇文章正文内容,下面案例可供参考
一、L1、L2正则化
- y = wx + b(w决定模型曲线,b决定模型平移情况)
1、L1正则与L2正则有何不同?
- L1是模型各个参数的绝对值之和,L2是各个参数平方和的开方
- L1:产生少量的特征,其他特征为0,最优的参数值大概率出现在坐标轴,进而导致产生稀疏的权重矩阵,
L2:选择更多的矩阵,这些矩阵趋向于0
2、为什么正则化可以防止过拟合?
通过为模型加一个正则化项可以防止过拟合
数学角度:
参数量角度:由于模型复杂度与参数个数正相关,令一些参数为0后,模型复杂度降低,进而可以防止过拟合
3、为什么L1正则具有稀疏性?(为什么L1正则可以特征选择?)
从以下三个角度进行说明:
解空间形状
贝叶斯先验
二、损失函数
常见损失函数
平方损失(预测问题)、交叉熵损失(分类问题)、hinge损失(SVM)、残差损失(CART回归树)
交叉熵
三、过拟合与欠拟合
1、如何降低过拟合
- 增加训练数据量 (数据增广)
- 使用正则化(L1、L2)
【L1产生更少的特征向量,其他特征的权值为0;L2选择更多的特征,每个特征权值都比较小】 - 简化模型结构,减少模型复杂度
- 在过拟合前提前结束训练
- Dropout(神经网络)
- 使用交叉验证等技术来评估模型等泛化能力
2、如何降低欠拟合
- 增加模型复杂度(增加模型的层数或参数数量)
- 对数据进行特征工程,提取更多的有效特征
- 减少(或移除)正则化的程度
- 增加训练时间,让模型有更多机会学习数据的规律
四、梯度爆炸和梯度消失
- 梯度消失成因:一是在深层网络中;二是采用了不适合的损失函数(如Sigmoid)
- 梯度爆炸一般出现在深层网络和权值初始化太大的情况下
解决方法
1、使用relu等激活函数,使得导数一直为1
2、残差结构
3、LSTM
4、 batchnorm:反向传播式子中有x xx的存在,所以x的大小影响了梯度的消失和爆炸,batchnorm就是通过对每一层的输出规范为均值和方差一致的方法,消除了x带来的放大缩小的影响
五、激活函数
1.引入库
2.读入数据
优化算法
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
传统的机器学习模型
1、回归算法
LR(分类) 与线性回归(预测)
线性回归使用最小二乘法计算参数,LR用最大似然估计
线性回归更容易受到异常值的影响,LR、更稳定
2、决策树学习
3、聚类算法(K-Means)
4、人工神经网络
5、集成算法(Boosting、Bootstrapped Aggregation(Bagging)、AdaBoost、随机森林)
6、基于核的算法(如SVM)
7、关联规则
8、贝叶斯方法(朴素贝叶斯)
9、降维算法(PCA、PLS、MDS)
10、基于实例的算法