我正在尝试找出CRAN/github/R-Forge中R或R包中的哪些统计/数据挖掘算法可以在1个服务器上并行或顺序处理大型数据集而不会遇到内存不足问题或一次可在多台计算机上运行。
为了评估我是否可以轻松地将它们移植到与ffbase::bigglm.ffdf之类的ff/ffbase一起使用。
我想将它们分为三个部分:
并行更新或处理参数估计值的算法
Buckshot(https://github.com/lianos/buckshot) lm.fit @大数据编程(https://github.com/RBigData) 顺序工作的算法(在R中获取数据,但仅使用1个进程,并且只有1个进程更新参数)
bigglm(http://cran.r-project.org/web/packages/biglm/index.html)复合泊松线性模型(http://cran.r-project.org/web/packages/cplm/index.html) Kmeans @ biganalytics(http://cran.r-project.org/web/packages/biganalytics/index.html) 处理部分数据
分布式文本处理(http://www.jstatsoft.org/v51/i05/paper)
我想排除简单的并行化,例如通过例如对超参数进行优化交叉验证。
还有其他指向此类模型/优化器或算法的指针吗?也许是贝叶斯?也许是一个名为RGraphlab(http://graphlab.org/)的软件包? 您是否已阅读CRAN上的High Performance Computing任务 View ?
它涵盖了您提到的许多要点,并概述了这些区域中的软件包。