我正在运行一个包含20个可抢占GCE实例的实例组,以读取Google存储上的ORC文件,该数据按小时进行分区,每小时大约2GB。
我应该使用哪种类型的实例?
JVM应该使用多少Ram?
我正在使用80%CPU的自动缩放配置和10分钟的冷却时间,Presto是否有更多的字幕配置?
是否由于资源不足而关闭服务器的解决方案?
部分答复也将不胜感激。
最佳答案
作为PrestoDB的0.199版本,Presto没有谷歌云存储连接器,这使得无法查询GCS数据。
关于硬件要求,我在这里引用Terada doc。
记忆
您应为Presto每个节点分配至少16GB的RAM。但
对于大多数生产工作负载,建议使用64GB。
网络带宽
建议在所有节点之间建立10 Gb以太网
集群。
其他建议
Presto可以安装在任何通常配置的Hadoop群集上。
YARN应该配置为考虑专用于
Presto。例如,如果一个节点具有64GB的RAM,也许您会
通常为YARN分配60GB。如果在该节点上安装Presto,并且
给Presto 32GB的RAM,那么您应该从60GB中减去32GB
并让YARN每个节点仅分配28GB。优化配置
可能会选择拥有单独的Presto和Hadoop节点。优化的
配置可让您为Presto提供更多内存,从而
例如,执行更大的联接查询。
关于google-cloud-storage - Presto可抢占式GCE实例,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44619179/