问题描述
我对Apache Spark和Spark-SQL有一定的了解.最近,我找到了Apache Drill项目.您能形容我之间最大的优点/不同之处是什么?我已经看过了快速Hadoop分析(Cloudera Impala与Spark/Shark vs Apache Drill)但是这个话题对我来说还不清楚.
I have some expirience with Apache Spark and Spark-SQL. Recently I've found Apache Drill project. Could you describe me what are the most significant advantages/differences between them? I've already readFast Hadoop Analytics (Cloudera Impala vs Spark/Shark vs Apache Drill)but this topic is still unclear for me.
推荐答案
这是我碰到的一篇文章,其中讨论了一些SQL技术: http://www.zdnet.com/article/sql-and-hadoop-its-complicated/
Here's an article I came across that discusses some of the SQL technologies: http://www.zdnet.com/article/sql-and-hadoop-its-complicated/
钻探在用户体验和体系结构上根本不同.例如:
Drill is fundamentally different in both the user's experience and the architecture. For example:
- Drill是无模式查询引擎.例如,您可以将其指向JSON或Parquet日志文件的目录(在本地框上,一个NFS共享,S3,HDFS,MapR-FS等),然后运行查询.您无需加载数据,创建和管理架构或对数据进行预处理.
- Drill内部使用JSON文档模型,从而可以查询任何结构的数据.许多现代数据很复杂,这意味着一条记录可以包含嵌套的结构和数组,并且字段名称实际上可以编码诸如时间戳或网页URL的值. Drill使普通的BI工具可以对此类数据进行无缝操作,而无需事先将数据展平.
- Drill可与各种非关系型数据存储一起使用,包括Hadoop,NoSQL数据库(MongoDB,HBase)和云存储.其他数据存储将被添加.
Drill 1.0刚刚发布(2015年5月19日).您可以轻松地将其下载到笔记本电脑上,并且无需任何基础设施(Hadoop,NoSQL等)就可以使用它.
Drill 1.0 was just released (May 19, 2015). You can easily download it onto your laptop and play with it without any infrastructure (Hadoop, NoSQL, etc.).
这篇关于Apache Drill与Spark的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!