我正在尝试将Oracle连接到Spark,并希望从某些表和SQL查询中提取数据。但是我无法连接到Oracle。我已经尝试过其他解决方案,但是没有外观。我已按照以下步骤操作。如果我需要进行任何更改,请纠正我。
我正在使用Windows 7计算机。
我使用Jupyter笔记本使用Pyspark。
我有python 2.7和Spark 2.1.0。
我在环境变量中设置了spark类路径:
SPARK_CLASS_PATH = C:\Oracle\Product\11.2.0\client_1\jdbc\lib\ojdbc6.jar
jdbcDF = sqlContext.read.format(“ jdbc”)。option(“驱动程序”,“ oracle.jdbc.driver.OracleDriver”)。option(“ url”,“ jdbc:oracle:// dbserver:port#/ database” ).option(“ dbtable”,“ Table_name”)。option(“ user”,“ username”)。option(“ password”,“ password”)。load()
错误:
1.Py4JJavaError:
An error occurred while calling o148.load.
: java.sql.SQLException: Invalid Oracle URL specified
2.Py4JJavaError:
An error occurred while calling o114.load. : java.lang.ClassNotFoundException: oracle.jdbc.driver.OracleDriver
另一种情况:
from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext
ORACLE_DRIVER_PATH = "C:\Oracle\Product\11.2.0\client_1\jdbc\lib\ojdbc7.jar"
Oracle_CONNECTION_URL ="jdbc:oracle:thin:username/password@servername:port#/dbservicename"
conf = SparkConf()
conf.setMaster("local")
conf.setAppName("Oracle_imp_exp")
sqlContext = SQLContext(sc)
ora_tmp=sqlContext.read.format('jdbc').options(
url=Oracle_CONNECTION_URL,
dbtable="tablename",
driver="oracle.jdbc.OracleDriver"
).load()
我正在错误以下。
Error: IllegalArgumentException: u"Error while instantiating org.apache.spark.sql.hive.HiveSessionState':"
请帮我。
最佳答案
这个变化已经解决了。
sqlContext = SQLContext(sc)
ora_tmp=spark.read.format('jdbc').options(
url=Oracle_CONNECTION_URL,
dbtable="tablename",
driver="oracle.jdbc.OracleDriver"
).load()
关于apache-spark-sql - 尝试从Spark连接到Oracle,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42768697/