在 spark.mllib.feature 中使用 PCA 时,我输入数据的 cols 超过 65535,但是 PCA 中定义的 RowMatrix 是

最佳答案

目前,PCA 实现似乎对在内存中拟合 d^2 协方差/grammian 矩阵条目有限制(d 是矩阵的列数/维数)。

它现在固定为 65535,因为 PCA 的当前实现没有太大的可扩展性。所以你实际上不能在你的情况下使用 PCA。

引用:source code.

有一个 JIRA issue 计划实现一个概率主成分分析算法,该算法应该是可扩展的,但它似乎已被解决,因为 不会修复

关于apache-spark - PCA 输入错误参数超过 65535,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36590825/

10-13 05:55