下面是我的代码:
我正在尝试从spark本地访问s3文件。
但是出现错误:
线程“主” org.apache.hadoop.security.AccessControlException中的异常:权限被拒绝:s3n:// bucketname / folder
我还在从cmd提交spark作业时使用jars:hadoop-aws-2.7.3.jar,aws-java-sdk-1.7.4.jar,hadoop-auth-2.7.1.jar。

package org.test.snow
import org.apache.spark._
import org.apache.spark.SparkContext._
import org.apache.log4j._
import org.apache.spark.storage.StorageLevel
import org.apache.spark.sql.SparkSession
import org.apache.spark.util.Utils
import org.apache.spark.sql._
import org.apache.hadoop.fs.FileSystem
import org.apache.hadoop.fs.Path

object SnowS3 {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("IDV4")
val sc = new SparkContext(conf)
val spark = new org.apache.spark.sql.SQLContext(sc)
import spark.implicits._
sc.hadoopConfiguration.set("fs.s3a.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")
sc.hadoopConfiguration.set("fs.s3a.awsAccessKeyId", "A*******************A")
sc.hadoopConfiguration.set("fs.s3a.awsSecretAccessKey","A********************A")
val cus_1=spark.read.format("com.databricks.spark.csv")
.option("header","true")
.option("inferSchema","true")
.load("s3a://tb-us-east/working/customer.csv")
cus_1.show()
    }
}

任何帮助,将不胜感激。
仅供引用:我正在使用spark 2.1

最佳答案

您不应该设置fs.s3a.impl选项。这是一种迷信,似乎在 Spark 示例中仍然存在。

而是仅通过使用带有s3a://前缀的S3A连接器

oop- * jar版本的

  • 一致版本。是的,hadoop-aws-2.7.3需要hadoop-common-2.7.3
  • 设置s3a特定的身份验证选项fs.s3a.access.key和`fs.s3a.secret.key'

  • 如果那不起作用,请查看s3a troubleshooting docs

    关于scala - 无法在本地连接S3和Spark,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/52540549/

    10-10 19:05