机器学习的特点:
1、机器学习系统所解决的都是无法直接使用固定规则或者流程代码完成的问题,通常这类问题对人类而言很简单。例如手机中的计算器不是智能系统,因为里面的计算方法都有清楚而且固定的规程,但是如果要求要求一台计算器去识别一张图片中的人或物体,这对于人类来讲非常容易,然而机器却非常难做到。
2、机器学习的学习能力是指它能够不断地从经历和数据中吸取经验教训,从而应对未来地预测任务。我们习惯把这种能力称之为泛化(generalization)
3、机器学习具备不断改善自身应对具体任务地能力。我们称这种完成任务地能力为性能(Performance)。
机器学习地经典定义美国卡内基梅隆大学Tom Mitchell教授提出来的
A program can be said to learn from experience E with respect to some class of takes T and per formance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
如果一个程序在使用既有地经验(E)执行某类任务(T)地过程中被认定为是‘具备学习能力的’,那么他需要展现出:利用现有经验(E),不断改善其完成既定任务(T)的性能(P)的特质。
任务(Task)
机器学习的两类经典任务:监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。
监督学习关注对事物未知表现的预测,一般包括分类问题(Classification)和回归问题(Regression).
无监督学习则倾向于对事物本身特性的分析,常用的技术包括数据降维(Dimensionality Reduction)和聚类问题(Clustering)
分类问题是对其所在的类别进行预测。类别既是离散的,同时也是预先知道数量。例如根据一个人的身高、体重和三围等数据,预测性别(男/女)。
回归问题也是预测问题,只是预测的目标往往是连续变量。比如根据房屋的面积、地理位置、建筑年代等进行销售价格的预测,销售价格就是一个连续变量。
数据降维是对事物的特性进行压缩和筛选,这项任务相对比较抽象。最长应用的领域是图像
聚类是依赖于数据的相似性,把相似的数据样本划分为一个簇。不同于分类问题,在大多数情况下,我们预先不知道簇的数量和每个簇的具体含义。现实生活中,大多数的电子商务网站经常对用户的信息和购买习惯进行聚类分析,一旦找到数量不菲并且背景相似的客户群,便可以针对他们投放广告。
经验(Experience)
我们习惯性的把数据视作经验,事实上,只有那些对学习任务有用的特定信息才会被列入考虑范围。
反应数据内在规律的信息叫做特征(Feature)。
对于监督学习,经验就是特征和标记/目标(Label/Target)两个部分。一般用特征向量(Feature Vector)来描述一个数据样本;标记/目标的表现形式则取决于监督学习的种类。
无监督学习问题自然没有标记/目标,因此也无法从事预测工作,却更加适合数据分析工作。
性能(Performance)评价所完成任务质量的指标。
为了评价学习模型完成任务的质量,我们需要具备同样特征的数据,并将模型的预测结果同相对应的正确答案进行比对。这样的数据集就是测试集。最重要的一点,测试集的数据不能用于模型训练。简而言之,训练集和测试集之间是彼此互斥的。
分类问题的评价性能指标是正确率(Accuracy),回归问题的评价性能指标是预测值与实际值之间的偏差大小。