hadoop - 安装和部署CDH

我有一个4节点集群，并且正在探索Cloudera，以便进行TPCH Benchmark(例如Spark，Hive，Impala等)。我的群集节点是合理的，具有4核的cpu，8GB的RAM和250GB的磁盘。

我正在尝试通过Web UI正确安装CDH 5，一切运行正常，无法安装多个工具，始终保持安装程序建议的默认角色/工具分发，问题是安装结束时我总是会遇到一些健康问题和警告!

我认为它的主要部分与ram有关，大多数警告是表示增加了堆大小等节点组件上的内存的汇总，女巫导致出现警告“过度分配内存阈值”，我不知道它是否更好忽略那些those屈或跟随。即使所有不良的健康警告，我也将所有经过汇总的更改应用到了Hive并加载了数据，以开始执行一些查询，但是在某些情况下，我只是在启动 map 减少工作时被卡住了!

谁能提供一些可能的解决方案/建议？
在此先感谢您，并感谢您的长时间发帖!

最佳答案

通常，您可以忽略内存过量使用的错误，因为大多数Java应用程序仅使用实际堆大小的一小部分。但是，正如cricket_007和Samson Scharfrichter所指出的那样，您的设置非常小。

http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/建议:

您的工作被卡住的最可能原因是缺少vcore。查看YARN Web UI，查看您有多少个可用的vcore。如果您的人数少(5岁以下)，您的工作将缺少运行任何工作负载所需的插槽。对于您的集群，您可以允许每个节点3个vcore，以便至少为您提供12个vcore。 Vcore不是CPU，您应该将vcore视为映射器/化简器任务或应用程序主控器的插槽。每个vcore至少需要512MB内存(您必须考虑JVM)。

请参阅https://blog.cloudera.com/blog/2015/10/untangling-apache-hadoop-yarn-part-2/以更全面地了解vcore和基本设置。

其他显而易见的事情是关闭不需要的服务，并为所需的服务缩减堆大小，以释放内存用于实际工作负载。

关于hadoop - 安装和部署CDH，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/42743546/