hadoop - 使用SparkSQL连接器从Hadoop HDFS读取数据以在Superset中可视化数据？

在Ubuntu服务器上，我设置了Divolte Collector来收集来自网站的点击流数据。数据存储在Hadoop HDFS(Avro文件)中。
(http://divolte.io/)

然后，我想使用Airbnb Superset来可视化数据，该Airset具有与常用数据库(由于SqlAlchemy)而不是HDFS的多个连接器。

借助JDBC Hive(http://airbnb.io/superset/installation.html#database-dependencies)，Superset特别具有到SparkSQL的连接器。

那么可以使用它来检索HDFS点击流数据吗？谢谢

最佳答案

为了在SparkSQL中读取HDFS数据，有两种主要方式取决于您的设置:

读取Hive中定义的表(从远程元存储中读取)(可能不是您的情况)

默认情况下(如果未进行其他配置)，SparkSQL将创建一个embedded metastore for Hive，它允许您使用Hive语法发出DDL和DML语句。
您需要一个external package才能工作com.databricks:spark-avro。

CREATE TEMPORARY TABLE divolte_data
USING com.databricks.spark.avro
OPTIONS (path "path/to/divolte/avro");

现在数据应该在表divolte_data中可用