本文介绍了使用sparkr当工作节点,我应该pre-安装CRAN的R程序包的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我想在CRAN使用R封装,如预测
等具有sparkr并满足以下两个问题。
-
我应该pre-安装在工作节点所有的包呢?但是,当我看到火花的来源$ C $ C 此文件,似乎火花会自动压缩包,并通过--jars或--packages分发给工人。我应该怎么做才能让工人提供的依赖?
-
假设我需要使用
在
的功能,我应该怎么导入包。我需要做这样的事情之后,在地图功能导入包,将它进行多次导入:地图
转型提供预测
SparkR :::地图(RDD,功能(X){
库(预测)
然后做其他工作人员
})
更新:
阅读更多的源$ C $ C后,似乎,我可以使用 includePackage
根据的。所以,现在的问题变成是不是我手动不得不pre-安装的软件包上的节点?如果这是真的,有什么用案例问题1中所述--jars和--packages?如果这是错的,如何使用--jars和--packages安装包?
解决方案
这是无聊重复这一点,但您不应该使用在第一位内部RDD API 。它在第一次正式发布SparkR被删除,这是根本不适合一般用途。
直到新的底层API准备(例如,见 ,的)我不会考虑星火作为运行纯R code进行平台。即使当它改变添加原生(Java /斯卡拉)code有R包装可能是一个更好的选择。
话虽这么说,让你的问题开始:
-
RPackageUtils
旨在处理封装,Spark在脑海包创建。它不处理标准的R库。 -
是的,你必须在每个节点上安装的软件包。从
includePackage
文档字符串:
这篇关于使用sparkr当工作节点,我应该pre-安装CRAN的R程序包的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!