机器学习(Machine Learning)作为当前最为流行的信息技术之一,已经吸引了众多人员的广泛关注,要想深度研究与掌握机器学习,了解其基础理论与应用是一条必经之路。吴恩达教授的机器学习系列视频内容通俗易懂,可以说是为广大想要探索机器学习的朋友们提供了一个入门福利。之前看吴恩达机器学习的时候做了一些纸质笔记,现在打算逐步把这些笔记编写为电子版,一方面可以温故知新,另一方面也可以分享交流。

  今天是第一部分——初识机器学习,主要了解的是机器学习的定义,以及监督学习与无监督学习的概念。

 

1、What is machine learning(ML) ?

       ML能模拟或实现人类的学习行为,解决一些简单但繁琐甚至复杂的问题,巧妙地将人类智慧融入到机器智能之中,目前已经涉及到各个行业与基础科学中,数据库挖掘与语音识别等都是典型的案例。

吴恩达机器学习系列0——初识机器学习-LMLPHP

  Arthur Samuel首次对ML进行了定义,他认为ML是研究无需显式编程就可以赋予计算机学习能力的领域(a field of study that gives computers the ability to learn without being explicitly programmed),这是一个比较古老非形式化的定义。

       Tom Mitchell给出了更形式化的定义,即假设用指标P来评估程序解决任务T的性能,若某  一程序通过利用经验E,在任务T上获得了性能改善,则该程序对E进行了学习(a computer program is said to learn from experience E with respect to some task T and performance measure P, if its P on T, improves with E)。

  周志华的西瓜书中也指出ML就是研究如何通过计算的手段,利用经验来改善系统自身的性 能。由于经验通常是以数据的形式存在,因此ML的研究内容就是关于在计算机上从数据中产生模型的算法,即学习算法(Learning Algorithm

  当前的学习算法主要分为监督学习(Supervised Learning)与无监督学习(Unsupervised  Learning)两大类型。

2、What is Supervised Learning ?

       监督学习(Supervised Learning指利用给定的包含正确答案(标签)的数据集(训练集)对学习算法进行训练。不同的数据情况有不同的模型形式,从算法的输入特征数量来看,有单个特征输入(单变量)与多个特征输入(多变量);从算法的预测变量类型来看,有实值预测(回归问题)与类别预测(分类问题)。吴恩达老师在讲授中举了如下几个例子:

  a. 基于房子面积的房价预测问题(单特征/实值预测)

  b. 基于肿瘤尺寸的肿瘤良性与否预测问题(单特征/类别预测{0,1}) 

  c. 基于年龄与肿瘤尺寸的肿瘤良性与否预测问题(多特征/类别预测{0,1})

吴恩达机器学习系列0——初识机器学习-LMLPHP 

3、What is Unsupervised Learning ?

       无监督学习(Unsupervised Learning指利用给定的不包含标签或具有相同标签的数据集(训练集)对学习算法进行训练。针对数据集,无监督学习能自动地找到数据中的结构,并把其分成不同的簇(Clusters,是一种聚类算法(Clustering

 
吴恩达机器学习系列0——初识机器学习-LMLPHP

       同样在无监督学习的理解中,吴恩达老师也举了几个例子:

  a. 谷歌新闻分组(基于新闻主题的聚类)

吴恩达机器学习系列0——初识机器学习-LMLPHP

  b. 基因类别分析(基于基因表达的聚类) 

  c. 社交网络分析(基于用户社交关系/兴趣的聚类)

吴恩达机器学习系列0——初识机器学习-LMLPHP 

  d. 音频身份识别(基于音频特征的聚类)

 

4、Summary

       机器学习可以从大规模数据中推演出模型,有效地提升了解决问题的性能。监督学习与无监督学习的差异根源来自数据集的特征,监督学习主要利用带有标签的数据集,实现对焦点变量的预测(prediction);无监督学习主要利用没有标签的数据集,实现对数据内容的洞察(insight)。

01-09 23:37