问题描述
在URL中:
在生产集群或数据中心上启动Analytics / Hadoop节点之前,禁用虚拟节点配置很重要。
"Before starting an analytics/Hadoop node on a production cluster or data center, it is important to disable the virtual node configuration."
如果我在Analytics / Hadoop节点中启用虚拟节点会发生什么?
What will happen if I enable virtual node in an analytics/Hadoop node?
推荐答案
如果在hadoop节点上启用虚拟节点,则会通过将映射器的数量增加到至少虚拟节点的数量来降低小型Hadoop作业的性能。例如。如果您使用默认的256个vnode /物理节点设置,则每个Hadoop作业将启动257个映射器。这些映射器可能处理的数据太少,服务器将花费大部分时间来管理这些任务而不是做有用的工作。
If you enable virtual nodes on hadoop node, it will lower performance of small Hadoop jobs by raising the number of mappers to at least the number of virtual nodes. E.g. if you use the default 256 vnodes / physical nodes setting, every Hadoop job will launch 257 mappers. Those mappers might have too little data to process and the server would spend most of the time managing those tasks instead of doing useful work.
在像样的硬件上,没有数据和256个vnode的作业可能需要大约5-10分钟,而同一工作仅需要在没有vnode的情况下配置大约需要20-40秒。
On a decent hardware, a job with no data and 256 vnodes may take about 5-10 minutes, contrary to the same job requiring only about 20-40 seconds when configured without vnodes.
这篇关于为什么不在Hadoop节点中启用虚拟节点?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!