我才刚刚开始学习H2O。我是否为在家学习H2O而感到困惑。当我简单地运行“ h2o.init()”时,便开始使用H2O进行数据清理或建模。它会加快大数据的计算速度吗?是否自动在线连接到某些H2O集群? H2O群集位于何处?

最佳答案

当您运行h2o.init()(即不带参数)时,它将在同一台计算机上启动一个“集群”。默认情况下,它将为您的计算机分配大约四分之一的内存,并且可以使用所有线程或两个线程(如果使用R且您是从CRAN安装的,则使用两个线程)。您将在http://127.0.0.1:54321/上找到Flow监听

如果您已经有一个H2O群集在另一台计算机上运行(无论是在您的LAN还是在远程云服务器上),请将地址提供给h2o.init()以使其连接到该地址,而不是在本地启动任何操作。

运行help(h2o.init)(在Python上)或?h2o.init(在R上)以查看所有可用选项。

注意:H2O是一种客户机/服务器体系结构,但是服务器(即使只有一台机器,也称为“集群”)是所有操作发生,数据和模型得以保留的地方,而客户机是比较薄。回应其中一项评论,如果您将运行localhost的H2O与scikit-learn之类的库进行比较,则两者之间没有太大区别(可用的计算能力)。 H2O的优点是您可以通过LAN轻松,透明地添加更多计算机,以增加可用内存并(在某种程度上)提高计算能力。缺点主要在于必须记住服务器是您保存数据的地方。例如对于大型数据集,请使用功能直接将其加载到服务器中,因为在客户端中保留副本只会浪费内存。

关于h2o - 在本地桌面上运行H2O是否会加快计算速度?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43785580/

10-12 23:42