在EMR上尝试过Apache Giraph吗?

在我看来,要在EMR上运行的唯一要求是向作业流程配置中添加适当的引导脚本。然后,我只需要使用标准的Custom JAR启动步骤来启动Giraph Runner,并为其Giraph程序添加适当的参数即可。

任何文档/教程,或者如果您仅可以与Giraph分享有关EMR的经验,将不胜感激。

最佳答案

是的,我定期在EMR上运行Giraph作业,但是我不使用“作业流”,而是手动登录到主节点并将其用作普通的Hadoop集群(我只是使用hadoop jar命令提交了作业)。

没错,您需要添加引导脚本来运行Zookeeper并将Zookeeper详细信息添加到核心站点配置中。这是我的做法:

自举 Action -
Configure Hadoop s3://elasticmapreduce/bootstrap-actions/configure-hadoop --site-key-value, io.file.buffer.size=65536, --core-key-value, giraph.zkList=localhost:2181, --mapred-key-value, mapreduce.job.counters.limit=1200Run if s3://elasticmapreduce/bootstrap-actions/run-if instance.isMaster=true, s3://hpc-chikitsa/zookeeper_install.sh
zookeeper_install.sh的内容为:

#!/bin/bash
wget --no-check-certificate http://apache.mesi.com.ar/zookeeper/zookeeper3.4./zookeeper3.4.5.tar.gz
tar zxvf zookeeper-3.4.5.tar.gz
cd zookeeper-3.4.5
mv conf/zoo_sample.cfg conf/zoo.cfg
sudo bin/zkServer.sh start

然后将Giraph jar文件复制到主节点(使用scp),然后将ssh复制到主节点,并使用hadoop jar命令提交作业。

希望能有所帮助。

这是giraph-user邮件列表上的一个相关邮件线程:

https://www.mail-archive.com/user%40giraph.apache.org/msg01240.html

关于hadoop - EMR上的Apache Giraph,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/22105978/

10-10 18:11