我有一个4节点集群,并且正在探索Cloudera,以便进行TPCH Benchmark(例如Spark,Hive,Impala等)。我的群集节点是合理的,具有4核的cpu,8GB的RAM和250GB的磁盘。

我正在尝试通过Web UI正确安装CDH 5,一切运行正常,无法安装多个工具,始终保持安装程序建议的默认角色/工具分发,问题是安装结束时我总是会遇到一些健康问题和警告!

我认为它的主要部分与ram有关,大多数警告是表示增加了堆大小等节点组件上的内存的汇总,女巫导致出现警告“过度分配内存阈值”,我不知道它是否更好忽略那些those屈或跟随。即使所有不良的健康警告,我也将所有经过汇总的更改应用到了Hive并加载了数据,以开始执行一些查询,但是在某些情况下,我只是在启动 map 减少工作时被卡住了!

谁能提供一些可能的解决方案/建议?
在此先感谢您,并感谢您的长时间发帖!

最佳答案

通常,您可以忽略内存过量使用的错误,因为大多数Java应用程序仅使用实际堆大小的一小部分。但是,正如cricket_007和Samson Scharfrichter所指出的那样,您的设置非常小。

http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/建议:



您的工作被卡住的最可能原因是缺少vcore。查看YARN Web UI,查看您有多少个可用的vcore。如果您的人数少(5岁以下),您的工作将缺少运行任何工作负载所需的插槽。对于您的集群,您可以允许每个节点3个vcore,以便至少为您提供12个vcore。 Vcore不是CPU,您应该将vcore视为映射器/化简器任务或应用程序主控器的插槽。每个vcore至少需要512MB内存(您必须考虑JVM)。

请参阅https://blog.cloudera.com/blog/2015/10/untangling-apache-hadoop-yarn-part-2/以更全面地了解vcore和基本设置。

其他显而易见的事情是关闭不需要的服务,并为所需的服务缩减堆大小,以释放内存用于实际工作负载。

关于hadoop - 安装和部署CDH,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42743546/

10-16 01:11