如何提交申请纱线集群所以在包装罐也被复制？

本文介绍了如何提交申请纱线集群所以在包装罐也被复制？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我想提出一个火花的工作指定火花CSV 包作为一个依赖：

 火花/斌/火花提交--packages com.databricks：火花csv_2.10：1.0.3 --deploy模式集群--master纱线集群script.py

但我得到下面的异常（片断）

  15/05/05 22点23分46秒INFO yarn.Client：源文件和目标文件系统是相同的。不复制/home/hadoop/.ivy2/jars/spark-csv_2.10.jar
异常线程mainjava.io.FileNotFoundException：文件不存在：HDFS：//172.31.13.205：9000 /家庭/ Hadoop的/ .ivy2 /罐/火花csv_2.10.jar

的火花集群安装和使用下面的脚本配置：

  AWS EMR创建集群--name沙箱--ami版本3.6 --instance型m3.xlarge --instance数3 \\
    --ec2的属性KeyName是=沙盒\\
    --applications名称=蜂巢\\
    --bootstrap-行动路径= S3：//support.elasticma$p$pduce/spark/install-spark \\
    --log-URI S3：// mybucket /火花日志\\
     - 脚步 \\
    Name=SparkHistoryServer,Jar=s3://elasticma$p$pduce/libs/script-runner/script-runner.jar,Args=s3://support.elasticma$p$pduce/spark/start-history-server \\
    Name=SparkConfigure,Jar=s3://elasticma$p$pduce/libs/script-runner/script-runner.jar,Args=[s3://support.elasticma$p$pduce/spark/configure-spark.bash,spark.default.parallelism=100,spark.locality.wait.rack=0]

这应该是广泛适用，因为我想象利用EMR星火星火开发商是不是一种罕见的工作流程，我没有做任何事情太复杂了。

下面是扩展堆栈跟踪：

 星火装配已建成蜂巢，包括类路径DataNucleus的罐子
常春藤默认缓存设置为：/home/hadoop/.ivy2/cache
存储在包的罐子：/home/hadoop/.ivy2/jars
::加载设置:: URL = jar:file:/home/hadoop/.versions/spark-1.3.0.d/lib/spark-assembly-1.3.0-hadoop2.4.0.jar!/org/apache/ivy/core/settings/ivysettings.xml
com.databricks＃火花csv_2.10添加为依赖
::解决依赖:: org.apache.spark＃火花提交父母; 1.0
    confs：[默认]
    发现com.databricks＃火花csv_2.10; 1.0.3在中央
    发现org.apache.commons＃公地CSV 1.1中部
::分辨率报告::解决238MS ::文物DL的8ms
    ::在使用的模块：
    com.databricks＃火花csv_2.10;中央1.0.3 [默认]
    org.apache.commons＃公地CSV 1.1中央在[默认]
    -------------------------------------------------- -------------------
    | |模块||文物|
    | CONF |号|搜索| dwnlded |驱逐||号| dwnlded |
    -------------------------------------------------- -------------------
    |默认| 2 | 0 | 0 | 0 || 2 | 0 |
    -------------------------------------------------- -------------------
::检索:: org.apache.spark＃火花提交父
    confs：[默认]
    0文物复制，2已检索（0KB / 10毫秒）
15/05/05 22点07分23秒INFO client.RMProxy：连接到ResourceManager中的/172.31.13.205:9022
15/05/05 22点07分23秒INFO yarn.Client中请求集群2 NodeManagers一个新的应用
15/05/05 22点07分23秒INFO yarn.Client：验证我们的应用程序没有要求不是群集的最大内存容量更大（11520每个集装箱MB）
15/05/05 22点07分23秒INFO yarn.Client：将分配AM容器，具有896 MB内存，包括384 MB的开销
15/05/05 22点07分23秒INFO yarn.Client：设置容器背景下推出为我们AM
15/05/05 22点07分23秒INFO yarn.Client：preparing我们的AM容器资源
15/05/05 22点07分24秒INFO yarn.Client：上传资源文件：/home/hadoop/.versions/spark-1.3.0.d/lib/spark-assembly-1.3.0-hadoop2.4.0.jar - ＆GT; hdfs://172.31.13.205:9000/user/hadoop/.sparkStaging/application_1430862769169_0005/spark-assembly-1.3.0-hadoop2.4.0.jar
15/05/05 22点07分24秒INFO metrics.MetricsSaver：MetricsConfigRecord disabledInCluster：假instanceEngineCycleSec：60 clusterEngineCycleSec：60 disableClusterEngine：假的
15/05/05 22点07分24秒INFO metrics.MetricsSaver：创建MetricsSaver J-3C91V87M8TXWD：I-e4bd8f2d：SparkSubmit：05979期：60 /mnt/var/em/raw/i-e4bd8f2d_20150505_SparkSubmit_05979_raw.bin
15/05/05 22点07分25秒INFO yarn.Client：源文件和目标文件系统是相同的。不复制/home/hadoop/.ivy2/jars/spark-csv_2.10.jar
异常线程mainjava.io.FileNotFoundException：文件不存在：HDFS：//172.31.13.205：9000 /家庭/ Hadoop的/ .ivy2 /罐/火花csv_2.10.jar
    在org.apache.hadoop.fs.Hdfs.getFileStatus（Hdfs.java:129）
    在org.apache.hadoop.fs.AbstractFileSystem.resolvePath（AbstractFileSystem.java:460）
    在org.apache.hadoop.fs.FileContext $ 23.next（FileContext.java:2120）
    在org.apache.hadoop.fs.FileContext $ 23.next（FileContext.java:2116）
    在org.apache.hadoop.fs.FSLinkResolver.resolve（FSLinkResolver.java:90）
    在org.apache.hadoop.fs.FileContext.resolve（FileContext.java:2116）
    在org.apache.hadoop.fs.FileContext.resolvePath（FileContext.java:591）
    在org.apache.spark.deploy.yarn.Client.copyFileToRemote（Client.scala：203）
    在org.apache.spark.deploy.yarn.Client$$anonfun$$p$ppareLocalResources$4$$anonfun$apply$1.apply(Client.scala:285)
    在org.apache.spark.deploy.yarn.Client$$anonfun$$p$ppareLocalResources$4$$anonfun$apply$1.apply(Client.scala:280)
    在scala.collection.IndexedSeqOptimized $ class.foreach（IndexedSeqOptimized.scala：33）
    在scala.collection.mutable.ArrayOps $ ofRef.foreach（ArrayOps.scala：108）
    在org.apache.spark.deploy.yarn.Client $$ anonfun $prepareLocalResources $ 4.适用（Client.scala：280）
    在org.apache.spark.deploy.yarn.Client $$ anonfun $prepareLocalResources $ 4.适用（Client.scala：278）
    在scala.collection.immutable.List.foreach（List.scala：318）
    在org.apache.spark.deploy.yarn.Client prepareLocalResources（Client.scala：278）。
    在org.apache.spark.deploy.yarn.Client.createContainerLaunchContext（Client.scala：384）
    在org.apache.spark.deploy.yarn.Client.submitApplication（Client.scala：102）
    在org.apache.spark.deploy.yarn.Client.run（Client.scala：619）
    在org.apache.spark.deploy.yarn.Client $。主要（Client.scala：647）
    在org.apache.spark.deploy.yarn.Client.main（Client.scala）
    在sun.reflect.NativeMethodAccessorImpl.invoke0（本机方法）
    在sun.reflect.NativeMethodAccessorImpl.invoke（NativeMethodAccessorImpl.java:57）
    在sun.reflect.DelegatingMethodAccessorImpl.invoke（DelegatingMethodAccessorImpl.java:43）
    在java.lang.reflect.Method.invoke（Method.java:606）
    在org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:569)
    在org.apache.spark.deploy.SparkSubmit $ .doRunMain $ 1（SparkSubmit.scala：166）
    在org.apache.spark.deploy.SparkSubmit $ .submit（SparkSubmit.scala：189）
    在org.apache.spark.deploy.SparkSubmit $。主要（SparkSubmit.scala：110）
    在org.apache.spark.deploy.SparkSubmit.main（SparkSubmit.scala）
15/05/05 22点07分25秒INFO metrics.MetricsSaver：保存3：3记录/mnt/var/em/raw/i-e4bd8f2d_20150505_SparkSubmit_05979_raw.bin
命令与RET退出'1'

解决方案

我觉得这可能是一个Apache星火错误，虽然我没有看到它在的。 http://apache-spark-user-list.1001560.n3.nabble.com/Resources-not-uploaded-when-submitting-job-in-yarn-client-mode-td21516.html似乎然而描述了同样的情况。根据该职位的问题是，在展开安装星火错误地认为目标系统相同的客户端系统，所以它foregoes复制：

I'd recommend trying --jars instead of --packages (see Submitting Applications). If that works, please file a bug about this issue!

这篇关于如何提交申请纱线集群所以在包装罐也被复制？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持！