我想知道是否有办法在scipy.sparse.csc_matrix中为mlpy设置python格式。我以前与mlpy合作过,并且一直处理非稀疏矩阵。例如,如果我每行有5个功能和1个标签(0或1),则将具有以下内容:

2,3,4,5,6,0

1,2,3,4,5,1
.....


现在,对于我的下一个项目,我拥有大约20,000个功能,因此在这种情况下创建稀疏矩阵会容易得多。

我看了关于k均值聚类的mlpy文档(因为我现在要做的就是聚类数据),并且它says

Parameters :
x : 2d array_like object (N, P)
data
k : int (1<k<N)
number of clusters
plus : bool
k-means++ algorithm for initialization
seed : int
random seed for initialization
Returns :
clusters, means, steps: 1d array, 2d array, int
cluster membership in 0,...,K-1, means (K,P), number of steps


我认为这意味着mlpy仅接受非稀疏矩阵。如果我读错了,请告诉我。

任何帮助将不胜感激。谢谢!

最佳答案

我认为答案很简单,即MLPy中的kmeans不适用于稀疏输入。编写算法以处理稀疏输入并非易事。

MiniBatchKMeansscikit-learn适用于稀疏输入(免责声明:我是scikit-learn开发人员)。

08-24 13:57