我们正在尝试在相当大的数据集(约1.4亿行)上使用gbm包进行实验,但遇到了R的内存需求问题。

我们尝试将软件包“gbm”和“bigmemory”组合在一起没有成功,我们的下一个想法是修改C++源代码以从存储数据集的本地数据库中提取数据。

因此,我们想知道是否存在一种更适当或更广为人知的做法,以便更改gbm的C++代码内部的分配。有没有人尝试过类似的东西?

最佳答案

我对gbm包不熟悉,但是如果它适用于某种数据帧或某种 vector ,则可以使用ff package

Quote:ff软件包提供了数据结构,这些数据结构存储在磁盘上,但通过透明地仅映射主内存中的一个部分(页面大小),其行为(几乎)就像它们在RAM中一样。

关于c++ - 修改R的包gbm,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/11687316/

10-12 17:44