缺点:类别比例不均衡时影响评价效果。
特点:AUC的评价效果不受正负样本比例的影响。因为改变正负样本比例,横纵坐标大小同时变化。整体不变。
2.1.2回归问题评价指标:
2.2.1 梯度下降法(gradient descent)
选择最陡峭的地方下山——这是梯度下降法的核心思想:它通过每次在当前梯度方向(最陡峭的方向)向前“迈”一步,来逐渐逼近函数的最小值。
梯度下降法根据每次求解损失函数LL带入的样本数,可以分为:全量梯度下降(计算所有样本的损失),批量梯度下降(每次计算一个batch样本的损失)和随机梯度下降(每次随机选取一个样本计算损失)。
缺点:
2.2.2 Momentum
为了解决随体梯度下降上下波动,收敛速度慢的问题,提出了Momentum优化算法,这个是基于SGD的,简单理解,就是为了防止波动,取前几次波动的平均值当做这次的W。
beta为新引入的超参,代表之前的dW的权重。
缺点:
依旧使用同一学习率alpha,比较难学习一个较好的学习率。
2.2.3 Adagrad
在前面介绍的算法中,每个模型参数θi使用相同的学习速率η,而Adagrad在每一个更新步骤中对于每一个模型参数θi使用不同的学习速率ηi。其更新方程为:
其中,Gt∈Rd×d是一个对角矩阵,其中第i行的对角元素eii为过去到当前第i个参数θi的梯度的平方和,epsilon是一个平滑参数,为了使得分母不为0。
缺点:
梯度衰减问题,Gt是不断增加的,导致学习率不断衰减,最终变得非常小。
2.2.4 RMSprop
RMSprop使用指数加权平均来代替历史梯度的平方和:
RMSprop对梯度较大的方向减小其学习速率,相反的,在梯度较小的方向上增加其学习速率。
缺点:
仍然需要全局学习率:n
2.2.5 Adam
Adam是Momentum 和 RMSprop的结合,被证明能有效适用于不同神经网络,适用于广泛的结构。是目前最常用的优化方法,优势明显。
简单选择方法:
数据量小可以用SGD。
稀疏数据则选择自适应学习率的算法;而且,只需设定初始学习率而不用再调整即很可能实现最好效果。
Adagrad, Adadelta, RMSprop, Adam可以视为一类算法。RMSprop 与 Adadelta本质相同,都是为了解决Adagrad的学习率消失问题。
目前来看,无脑用 Adam 似乎已经是最佳选择。
2.3 过拟合问题
常见激活函数
样本不平衡
模型评估指标
距离衡量与相似度
损失函数
通过极大似然估计生成似然函数,取对数求极大值--损失函数
用一个猜测的分布的编码去编码真实的分布,得到的信息量
交叉熵p(x)对应真实标记y,q(x)对应预测值。
特征选择的方法
决策树剪枝
WOE/IV值计算公式
常见的数据分箱方法
处理海量数据方法
Kmean缺陷与改进
随机森林
XGB
LGB
-常用调参:
num_iterations、learning_rate:迭代次数,学习率
max_depth、min_data_in_leaf、num_leaves:控制树的大小
lambda_l1、lambda_l2、min_split_gain:L1、L2、最小切分
feature_fraction、bagging_fraction:随机采样特征和数据
device:GPU
GBDT、XGB、LGB比较
Stacking和Blending
LDA、PCA与SVD
线性判别分析 Linear Discriminate Analysis(监督)
PCA用于方阵矩阵分解
SVD用于一般矩阵分解 - LDA(类别区分最大化方向投影)
在标签监督下,进行类似PCA的主成分分析
构造类间的散布矩阵 SB 以及 类内散布矩阵 SW - PCA(方差最大化方向投影) 构建协方差矩阵 最大化投影方差:信号具有较大方差,让数据在主轴方向投影方差最大 最小平方误差:方差最大,即样本点到直线距离最小(最小平方误差)
- SVD
左右为正交矩阵:用于压缩行、列 中间为对角阵:奇异值
SVM
EM
用于含有隐变量的概率模型参数的极大似然估计
本文分享自微信公众号 - AI科技时讯(aiblog_research)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。