我想使用SAS / ACESS 9.3M2接口(interface)将SAS与我的Hive连接。
我的问题是
sas是否将配置单元多维数据集导入到sas环境中并在那里查询?
要么,
为了报告的目的,它再次击中 hive ,因此它运行MR,这使我的报告性能降低到2-4秒以上。
如果将配置单元表导入其环境,与普通sql多维数据集相比,其性能如何?
我不熟悉SAS,我希望在2-4秒内生成报表,而汇总数据将存储在Hive表中,然后在此之上创建多维数据集维度。
谢谢...
最佳答案
SAS / ACCESS服务的目的是:
-为您提供读取数据和从数据源写入数据的能力,并负责数据类型的转换
-提供有关数据存储的元数据(表,字段,数据类型的列表)
-提供一种手段(将(部分)翻译(隐式传递)SAS代码转换为数据源特定的代码(通常是SQL变体等)
-为您提供一种编写数据源特定代码并将其从SAS发送以在数据源中执行的方法
我是Hadoop的新手:-),所以我只是猜测SAS /对Hadoop的访问(通过LIBNAME语句)从Hadoop读取关系数据,文档中提到了JDBC,所以我猜这是用于数据访问的。
我怀疑SAS / Access是否能够从Hadoop查询多维数据集(这是您的问题吗?
-“我已经在上面创建了多维数据集维度”-在Hadoop中意味着什么?)。
通常,SAS / Access会尽量减少从数据源进行的数据传输,并尝试将处理推送到数据源。
从http://blog.cloudera.com/blog/2013/05/how-the-sas-and-cloudera-platforms-work-together:
SAS / ACCESS到Hadoop
SAS / ACCESS提供了以本地方式访问SAS中Hadoop中存储的数据集的功能。通过SAS /对Hadoop的访问:
LIBNAME statements can be used to make Hive tables look like SAS data sets on top of which SAS Procedures and SAS DATA steps can interact.
PROC SQL commands provide the ability to execute direct Hive SQL commands on Hadoop.
PROC HADOOP provides the ability to directly submit MapReduce, Apache Pig, and HDFS commands from the SAS execution environment to your CDH cluster.
SAS 9.3M2版本提供了SAS / ACCESS接口(interface),并支持CDH 3U2以及CDH 4.01及更高版本。
也可能对PROC HADOOP有帮助
http://support.sas.com/documentation/cdl/en/proc/65145/HTML/default/viewer.htm#p1esotuxnkbuepn1w443ueufw8in.htm
关于hadoop - SAS的Hadoop连接,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/18358722/