我对python mining数据集太大而无法放在RAM中却坐在单个HD中感兴趣。

我了解可以使用hdf5将数据导出为pytables文件。另外,numexpr允许进行一些基本的核外计算。

接下来会发生什么?如果无法使用迷你批处理,并且在无法使用迷你批处理的情况下依靠线性代数结果分解计算?

还是我错过了一些高级工具?

感谢您的见解,

最佳答案

在sklearn 0.14(将在 future 几天发布)中,有一个完整的文本文档核心分类示例。

我认为这可能是一个很好的例子:

http://scikit-learn.org/dev/auto_examples/applications/plot_out_of_core_classification.html

在下一个版本中,我们将使用更多分类器扩展此示例,并在用户指南中添加文档。

注意:您也可以使用0.13重现此示例,所有构建块都已存在。

关于python - 用于内核外计算/数据挖掘的Python工具,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/15465997/

10-12 16:51
查看更多