有人可以概述可用的各种Hadoop发行版之间的各种差异吗?
以Apache Hadoop发行版为基准。
在标准Apache Hadoop发行版上使用这些发行版之一,是否有充分理由?
最佳答案
免责声明:我今年夏天在Cloudera实习(但我最好的 friend 在Yahoo! :-))
Yahoo发行版是Hadoop 20的一个版本,它们在集群的某些子集上运行(运行?)。它包括一组用于稳定性,错误修复等的补丁程序。它没有rpm或debian软件包等易于管理的功能。
Cloudera发行版以rpm和debs的形式打包(也提供源)。这意味着您可以通过标准方法等获取更新。它还包括稳定性和错误修复补丁。它一直在维护(不是说Yahoo不是-我想一个人可以在github上检查一下他们上一次更新的时间)。它还包装Pig和Hive。
Cloudera的Hadoop 20发行版处于beta版本,而18则被认为是稳定的(有关更多信息,请访问Cloudera blog)。 18版本还包括Hive和Pig的软件包;对于20版本,您必须自己构建它们(尽管存在补丁,但还没有支持20版本的Pig或Hive的正式版本)。 Cloudera和Yahoo 20版本之间可能存在重大重叠;两者都提供 list ,因此您可以检查。 Cloudera发行版的最新文档位于http://archive.cloudera.com
雅虎不为其发布提供支持;他们向社区提供服务以提供补丁程序版本,因此有兴趣的人们可以构建Yahoo在内部运行的内容。考虑到Yahoo集群的规模,这是一个巨大的贡献,特别是如果您不是一直遵循JIRA的Hadoop开发人员。 Cloudera支持其商业发行,并通过Hadoop邮件列表提供社区支持,以及针对发行版特定问题的GetSatisfaction页面。
两者都与原始Apache发行版有很大不同,因为它们在发行版之间进行了修补(cloudera版本20有60多个补丁!)。
关于java - Hadoop发行差异,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/1412590/