导学
- 欧氏距离 平方
- 曼哈顿距离 一次方
- 马氏距离 协方差(先标准化再计算距离)\(d(x_{i},x_{j})=\sqrt{(x_{i}-x_{j})^{T}s^{-1}(x_{i}-x{j})}\) s为数据的协方差
- 夹角余弦
sklearn cluster
sklearn.cluster 模块提供的个聚类算法函数可以使用不同的数据形式作为输入
标准格式: [样本个数,特征个数]定义的矩阵形式
- 相似矩阵输入格式
即由[样本数目]定义的矩阵形式 DBSCAN,AffinityPropagation接受这种输入
K-means | 聚类个数 | 大规模数据 | 点间距离 |
DNSCAN | 邻域大小 | 大规模数据 | 点间距离 |
Gaussian Mixtures | 聚类个数以及其他超参 | 复杂度较高不适合大规模数据 | 马氏距离 |
Birch | 分支因子,阈值等其他超常参 | 大规模数据 | 欧氏距离 |
sklearn decomposition
PCA | 所降维度以及其他超参 | 大规模数据 | 信号处理 |
FastICA | 同上 | 超大规模数据 | 图形图像特征提取 |
NMF | 同上 | 复杂度较高不适合大规模数据 | 图形图像特征提取 |
LDA | 同上 | 大规模数据 | 文本数据 主题挖掘 |