在Ubuntu服务器上,我设置了Divolte Collector来收集来自网站的点击流数据。数据存储在Hadoop HDFS(Avro文件)中。
(http://divolte.io/)

然后,我想使用Airbnb Superset来可视化数据,该Airset具有与常用数据库(由于SqlAlchemy)而不是HDFS的多个连接器。

借助JDBC Hive(http://airbnb.io/superset/installation.html#database-dependencies),Superset特别具有到SparkSQL的连接器。

那么可以使用它来检索HDFS点击流数据吗?谢谢

最佳答案

为了在SparkSQL中读取HDFS数据,有两种主要方式取决于您的设置:

  • 读取Hive中定义的表(从远程元存储中读取)(可能不是您的情况)
  • 默认情况下(如果未进行其他配置),SparkSQL将创建一个embedded metastore for Hive,它允许您使用Hive语法发出DDL和DML语句。
    您需要一个external package才能工作com.databricks:spark-avro
    CREATE TEMPORARY TABLE divolte_data
    USING com.databricks.spark.avro
    OPTIONS (path "path/to/divolte/avro");
    

  • 现在数据应该在表divolte_data中可用

    10-01 00:45
    查看更多