“ 多读书,多看报,少吃零食多睡觉!为了深入了解机器学习,同时学习英语,我开始了“误导”他人的机器学习书籍翻译工作,新手上路,请批评指正。”
在Alan Turing最著名的文章《Computing Machinery and Intelligence 》所问的一个基本问题“机器能做我们所做(所思考)的吗?”机器学习不是关于“思考”的,但是与一个相关活动有关:学习或者说是完善。就像Arthur Samuel所言,“这种学习给予了计算机不用明确的编程就可以学习的能力!“
机器学习技术一般地被分为两个类别:
在监督学习
部分的栗子中,计算机通过得到的一个输入去“学习”模型,预测出一个合适的、误差最小的输出。分类、神经网络和回归都是监督学习的栗子。对于所有这些技术来说,我们可以假设这里有一个圣人或者老师“教”计算机如何使用课堂学到的东西去处理新的未见过的数据。
无监督学习
,计算机则没有老师,他们只能孤独的寻找数据的结构、模式、特点(anomalies)。聚类和密度估计就是无监督学习的典型栗子。
让我们现在回顾一下主要的机器学习技术:
在分类
中,“老师”代表的是输入、目标类型部分,计算机学习对新的未测试的数据根据属性分类。朴素贝叶斯、支持向量机、决策树和神经网络都是分类的方法。前两种会在这一卷里讨论,其余的几个则会在下一卷。
在回归
中,“老师”代表着输入和连续目标对象,计算机学习如何在新的、未测试的数据中预测连续值。线性回归和逻辑回归会在本卷讨论。决策树、支持向量机、神经网络也可以用于回归。
在关联规则学习
中,计算机将面对大量观测值,这些将组成多元化的变量,这个任务是学习各个变量之间的关系,例如A&B–>C(即,如果A和B同时发生,则C也将发生)。
聚类
,计算机学习如何把观测值划分到多种子集中,那样每一部分都将通过许多定义明确的矩阵由相同种类的观测值组成K-Means 和DBSCAN 也是这一类算法。
密度估计
,计算机学习如何去发现描述型数据的统计值,算法例如EM(Expectation Maximization,最大期望)