缺点:类别比例不均衡时影响评价效果。

特点:AUC的评价效果不受正负样本比例的影响。因为改变正负样本比例,横纵坐标大小同时变化。整体不变。

2.1.2回归问题评价指标:

2.2.1 梯度下降法(gradient descent)

选择最陡峭的地方下山——这是梯度下降法的核心思想:它通过每次在当前梯度方向(最陡峭的方向)向前“迈”一步,来逐渐逼近函数的最小值。

梯度下降法根据每次求解损失函数LL带入的样本数,可以分为:全量梯度下降(计算所有样本的损失),批量梯度下降(每次计算一个batch样本的损失)和随机梯度下降(每次随机选取一个样本计算损失)。

缺点:

2.2.2 Momentum

为了解决随体梯度下降上下波动,收敛速度慢的问题,提出了Momentum优化算法,这个是基于SGD的,简单理解,就是为了防止波动,取前几次波动的平均值当做这次的W。

beta为新引入的超参,代表之前的dW的权重。

缺点:

依旧使用同一学习率alpha,比较难学习一个较好的学习率。

2.2.3 Adagrad

在前面介绍的算法中,每个模型参数θi使用相同的学习速率η,而Adagrad在每一个更新步骤中对于每一个模型参数θi使用不同的学习速率ηi。其更新方程为:

其中,Gt∈Rd×d是一个对角矩阵,其中第i行的对角元素eii为过去到当前第i个参数θi的梯度的平方和,epsilon是一个平滑参数,为了使得分母不为0。

缺点:

梯度衰减问题,Gt是不断增加的,导致学习率不断衰减,最终变得非常小。

2.2.4 RMSprop

RMSprop使用指数加权平均来代替历史梯度的平方和:

RMSprop对梯度较大的方向减小其学习速率,相反的,在梯度较小的方向上增加其学习速率。

缺点:

仍然需要全局学习率:n

2.2.5 Adam

Adam是Momentum 和 RMSprop的结合,被证明能有效适用于不同神经网络,适用于广泛的结构。是目前最常用的优化方法,优势明显。

简单选择方法:

数据量小可以用SGD。

稀疏数据则选择自适应学习率的算法;而且,只需设定初始学习率而不用再调整即很可能实现最好效果。

Adagrad, Adadelta, RMSprop, Adam可以视为一类算法。RMSprop 与 Adadelta本质相同,都是为了解决Adagrad的学习率消失问题。
目前来看,无脑用 Adam 似乎已经是最佳选择。


2.3 过拟合问题

常见激活函数

样本不平衡

模型评估指标

距离衡量与相似度

损失函数

通过极大似然估计生成似然函数,取对数求极大值--损失函数

用一个猜测的分布的编码去编码真实的分布,得到的信息量
交叉熵p(x)对应真实标记y,q(x)对应预测值。

特征选择的方法

决策树剪枝

WOE/IV值计算公式

常见的数据分箱方法

处理海量数据方法

Kmean缺陷与改进

随机森林

XGB

LGB

-常用调参:
num_iterations、learning_rate:迭代次数,学习率
max_depth、min_data_in_leaf、num_leaves:控制树的大小
lambda_l1、lambda_l2、min_split_gain:L1、L2、最小切分
feature_fraction、bagging_fraction:随机采样特征和数据
device:GPU

GBDT、XGB、LGB比较

Stacking和Blending

LDA、PCA与SVD

线性判别分析 Linear Discriminate Analysis(监督)
PCA用于方阵矩阵分解
SVD用于一般矩阵分解 - LDA(类别区分最大化方向投影)
在标签监督下,进行类似PCA的主成分分析
构造类间的散布矩阵 SB 以及 类内散布矩阵 SW - PCA(方差最大化方向投影) 构建协方差矩阵 最大化投影方差:信号具有较大方差,让数据在主轴方向投影方差最大 最小平方误差:方差最大,即样本点到直线距离最小(最小平方误差)
- SVD
左右为正交矩阵:用于压缩行、列 中间为对角阵:奇异值

SVM

EM

用于含有隐变量的概率模型参数的极大似然估计

追根溯源,算法岗面试「完整脉络」梳理:手推公式、通用问题、常见算法机器学习-LMLPHP

本文分享自微信公众号 - AI科技时讯(aiblog_research)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

09-13 22:15