- 机器学习:让一个模型能够通过数据调优自己,后续的数据可以通过模型获得更贴近真实的结论
- 数据集:也叫样本,可以简单理解为一个个对象构建成的集合
- 训练样本:构建的数据集中的一部分被拿来训练模型的子集
- 标记:数据集中的对象可以被打上一个标签,比如你三天下了十笔订单,可以叫做高活用户
- 标记空间:将对象中的数据和对象的标记组合,然后重新形成的集合就叫标记空间
- 学习任务类别:分类(好瓜,坏瓜);回归(好瓜0.95,好瓜0.37);聚类(训练集中的对象根据自己的数据判断内在规律,打上标记)
- 正类:分类任务中只涉及两个类别,我们需要判断出来的类别就是正类
- 反类:分类任务中只涉及两个类别,我们不需要判断出来的类别就是反类
- 测试样本:构建的数据集中一部分被用来测试模型的数据构成的集合就叫测试样本,一般测试样本是训练样本在全部数据集中的补集
- 假设空间:对象可以整合的特征可能出现的集合
- 版本空间:假设空间中和训练集一致的多个假设形成的子集
- 机械学习:死记硬背式学习
- 类比学习:从观察和发现中学习
- 归纳学习:从训练样例中学习,涵盖了监督学习和无监督学习,也是主流
- 连接主义:基于神经网络间连接机制形成的学派
- 深度学习:基于神经网络的连接主义学习
- 错误率:m=样本总数 a=错误样本分类 E=a/m
- 精度:1-错误率
- 过拟合:泛化性能下降,将只属于训练样本的特性作为全部数据的标准
- 欠拟合:未从训练样本中得到一般性质
- 留出法:评估学习器泛化误差的方法之一,将正反例区分后分别将三分之二或者五分之四作为训练集,其他作为测试样例
- 交叉验证法:评估学习器泛化误差的方法之一,将数据集分成k个互斥子集,每次拿其中一个子集作为测试集,其他未训练集,进行k次(k一般为10,也有5和20)
- 自助法:评估学习器泛化误差的方法之一,先从m个样本的数据集d中随机采样m次,每次采样完将采样的样本放到新的数据集d‘中,不删除d中原有的样本,这样我们可以得出结论样本采样m次始终没有被采的概率是1/e(约等于0.368),将d\d'作为测试集,d’作为训练集,这样我们会有约总量三分之一没有经过训练的数据作为测试。
- 均方误差:回归任务的常用性能度量
- 错误率:二分类任务中分类错误样本数占总样本数的比率
- 精度:二分类任务中分类正确样本数占总样本数的比率
- 查准率:P,查找出来的数据有多少是正确的
- 查全率:查找出来的正确数据是所有正确数据的多少
- 分类结果混淆矩阵:二分类任务中,将真实类别和预测类别组合可以分为四个情况;tp,fp,tn,fn,四者之和是样例总数,如果预测是正,结果是真,则为tp;如果预测为反,结构为正,则是fn;如果预测是正,结果是反,则为fp,如果预测是反,结果是反则为tn
- pr曲线:每次学习器不同的调整出现数据后,根据查全率和查准率形成的图形
- 平衡点:pr曲线中查准率和查全率相等的坐标,一般数值越大表示学习器越好
11-16 10:37