使用sparkr当工作节点

使用sparkr当工作节点

本文介绍了使用sparkr当工作节点,我应该pre-安装CRAN的R程序包的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想在CRAN使用R封装,如预测等具有sparkr并满足以下两个问题。


  1. 我应该pre-安装在工作节点所有的包呢?但是,当我看到火花的来源$ C ​​$ C 此文件,似乎火花会自动压缩包,并通过--jars或--packages分发给工人。我应该怎么做才能让工人提供的依赖?


  2. 假设我需要使用地图转型提供预测的功能,我应该怎么导入包。我需要做这样的事情之后,在地图功能导入包,将它进行多次导入:

    SparkR :::地图(RDD,功能(X){
      库(预测)
      然后做其他工作人员
    })


更新:

阅读更多的源$ C ​​$ C后,似乎,我可以使用 includePackage 根据的。所以,现在的问题变成是不是我手动不得不pre-安装的软件包上的节点?如果这是真的,有什么用案例问题1中所述--jars和--packages?如果这是错的,如何使用--jars和--packages安装包?


解决方案

这是无聊重复这一点,但您不应该使用在第一位内部RDD API 。它在第一次正式发布SparkR被删除,这是根本不适合一般用途。

直到新的底层API准备(例如,见 ,的)我不会考虑星火作为运行纯R code进行平台。即使当它改变添加原生(Java /斯卡拉)code有R包装可能是一个更好的选择。

话虽这么说,让你的问题开始:


  1. RPackageUtils 旨在处理封装,Spark在脑海包创建。它不处理标准的R库。

  2. 是的,你必须在每个节点上安装的软件包。从 includePackage 文档字符串:

这篇关于使用sparkr当工作节点,我应该pre-安装CRAN的R程序包的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

09-05 06:36