我对BigData体系结构还很陌生,所以请不要对我苛刻。

我正在尝试找出构建能够处理大量数据的BI架构的最佳选择。如我所见,该解决方案必须是集群/水平可伸缩的,以应对系统的增长。我希望能够使用SQL与系统进行交互,因此HBase + Hive(甚至是Pig,不是用于SQL,但不需要手动编写MR任务)可以解决。与例如Exasolution及其内存中MPP列式解决方案相对,这种体系结构的优点/缺点是什么?

还有其他替代品可能会带来一些额外好处吗?维护和配置如何?任何Microsoft解决方案(我可能会找到与此相关的客户特定需求)

很抱歉发布这样一个开放性问题,但我希望看到一些讨论,以便我能尽可能地向您学习。

最佳答案

尽管是EXASOL的人,但我不会开始尝试说服您EXASOL是那里的唯一也是最好的解决方案。这在很大程度上取决于您要实现的用例以及必须满足的要求。

Hadoop 是一个非常灵活,可扩展的系统,经常用于存储和处理大量数据。

EXASOL 是专门用于复杂分析查询处理的RDBMS。

我认为这两个选项并不是直接竞争,而是彼此互补。在许多情况下,公司需要一个可扩展的数据湖来存储和预处理那里的数据,或者以相当简单的方式对其进行查询。一旦您想通过复杂的分析进入实时业务,其中数十,数百甚至数千个分析师正在运行大量查询,那么内存中RDBMS就是一个不错的选择。

Candy Crush的制作人King 将这两个世界结合到了功能强大的数据管理生态系统中。他们将PB的数据存储在Hadoop中,并在顶部将EXASOL用作数百TB数据的内存层。您可以在此处阅读有关该令人兴奋的用例的更多信息: http://bit.ly/1TR8APY

这两个世界的另一个重要区别是复杂度。尽管EXASOL是免调整的,因为它是运行SQL查询或R / Python / Java数据库内分析的特定用例的专用系统(类似于设备),但Hadoop堆栈要复杂得多。您将需要一定程度的知识,以了解如何设置,维护和调整该系统。这不必是两个选项中任何一个的原因。如前所述,它在很大程度上取决于您的需求。

价格 Angular 来看,Hadoop是免费的,因此它应该比内存数据库(例如EXASOL)便宜得多,对吗?等一下,这不是那么容易。同样,您必须考虑整个情况。您真正要存储多少数据,需要查询多少数据进行分析,需要购买多少硬件,必须雇用和培训多少人来进行系统上部署的操作或分析? 。

摘要

总结一下我的想法,世界太复杂了,无法直接比较这两种技术。根据用例和您的个人需求,一个或另一个可能是更好的选择。在我看来,市场趋势是将此类系统与数据管理生态系统相结合,在其中您可以从两个世界中获得最大的 yield ...实际上是三个世界,因为NoSQL解决方案的操作数据处理世界也应该是在这里提到。

我希望能有所帮助。如果您需要其他任何详细信息,尤其是有关EXASOL的信息,请随时与我联系或在LinkedIn上与我联系: de.linkedin.com/in/exagolo

08-07 14:52