机器学习的基础概念
数据
- 著名的鸢尾花数据 https://en.wikipedia.org/wiki/lris_flower_data_set
lris setossa lris versicolor lris verginica
下面是鸢尾花的数据:
- 数据整体叫数据集(data set)
- 每一行数据称为一个样本(sample)
- 除最后一列,每一列表达样本的一个特征(feature)
- 最后一列,称为标记(label)
第i个样本行写作 ,也叫特征向量。第i个样本第j个特征值 第i个样本的标记写作
为了可视化特征方便,我们只抽取出特征中的前两个特征,其中萼片的长度作为横轴,萼片的宽度作为纵轴。
绘制下图:
对于每一个样本来说都会在坐标系中表示一个点,假设我们有三个特征,就可以在三维空间中表示它,同理如果有1000种特征,就可以在1000维的空间中表示它,而这个绘制样本的空间我们称它为特征空间(feature space)。
通过可视化绘制样本点后,我们可以比较轻易的绘制出一根直线,红色样本在直线的一边而蓝色样本在直线的另一边。
分类任务本质就是在特征空间切分,在高维空间同理。
而鸢尾花拥有4个特征,应该是在4维特征空间中分析。
特征可以很抽象
- 图像,每一个像素点都是特征
- 28*28的图像有28*28=784个特征
- 如果是彩色图像特征更多