在Ubuntu服务器上,我设置了Divolte Collector来收集来自网站的点击流数据。数据存储在Hadoop HDFS(Avro文件)中。
(http://divolte.io/)
然后,我想使用Airbnb Superset来可视化数据,该Airset具有与常用数据库(由于SqlAlchemy)而不是HDFS的多个连接器。
借助JDBC Hive(http://airbnb.io/superset/installation.html#database-dependencies),Superset特别具有到SparkSQL的连接器。
那么可以使用它来检索HDFS点击流数据吗?谢谢
最佳答案
为了在SparkSQL中读取HDFS数据,有两种主要方式取决于您的设置:
您需要一个external package才能工作
com.databricks:spark-avro
。CREATE TEMPORARY TABLE divolte_data
USING com.databricks.spark.avro
OPTIONS (path "path/to/divolte/avro");
现在数据应该在表
divolte_data
中可用