导学

  • 欧氏距离 平方
  • 曼哈顿距离 一次方
  • 马氏距离 协方差(先标准化再计算距离)\(d(x_{i},x_{j})=\sqrt{(x_{i}-x_{j})^{T}s^{-1}(x_{i}-x{j})}\) s为数据的协方差
  • 夹角余弦

sklearn cluster

sklearn.cluster 模块提供的个聚类算法函数可以使用不同的数据形式作为输入
标准格式: [样本个数,特征个数]定义的矩阵形式

  • 相似矩阵输入格式
    即由[样本数目]定义的矩阵形式 DBSCAN,AffinityPropagation接受这种输入
K-means聚类个数大规模数据点间距离
DNSCAN邻域大小大规模数据点间距离
Gaussian Mixtures聚类个数以及其他超参复杂度较高不适合大规模数据马氏距离
Birch分支因子,阈值等其他超常参大规模数据欧氏距离

sklearn decomposition

PCA所降维度以及其他超参大规模数据信号处理
FastICA同上超大规模数据图形图像特征提取
NMF同上复杂度较高不适合大规模数据图形图像特征提取
LDA同上大规模数据文本数据 主题挖掘
05-07 15:24