我对python mining
数据集太大而无法放在RAM中却坐在单个HD中感兴趣。
我了解可以使用hdf5
将数据导出为pytables
文件。另外,numexpr
允许进行一些基本的核外计算。
接下来会发生什么?如果无法使用迷你批处理,并且在无法使用迷你批处理的情况下依靠线性代数结果分解计算?
还是我错过了一些高级工具?
感谢您的见解,
最佳答案
在sklearn 0.14(将在 future 几天发布)中,有一个完整的文本文档核心分类示例。
我认为这可能是一个很好的例子:
http://scikit-learn.org/dev/auto_examples/applications/plot_out_of_core_classification.html
在下一个版本中,我们将使用更多分类器扩展此示例,并在用户指南中添加文档。
注意:您也可以使用0.13重现此示例,所有构建块都已存在。
关于python - 用于内核外计算/数据挖掘的Python工具,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/15465997/