我有以下要求,但对于要选择高性能的哪个感到困惑。我不是Java开发人员。我对Hive,Pig和Python感到满意。
我正在使用带有tez引擎的HDP2.1。数据源是文本文件(80 GB)和Oracle表(15GB)。两者都是结构化数据。我听说Hive将提供结构数据套件和Python映射减少流概念,并且将比hive&Pig具有更高的性能。请澄清。
我正在使用Hive,原因是:
现在,使用Hive和Python UDF在4节点群集上完成从数据复制到HDFS到最终结果的完整执行时间为2.30小时。
我的问题是:
1)我听说Java Mapreduce总是更快。 Python Map也会减少流媒体概念吗?
2)我可以在Python中实现上述所有功能,例如连接,文本文件名的检索,压缩数据流(如ORC),因为数量很大吗?
3)Pig加入会比Hive好吗?如果可以,我们可以在Pig中获取输入文本文件名以生成输出列吗?
提前致谢。
最佳答案
您说的是HDP 2.1。您看过Spark吗?如果性能对您很重要,并且查看看起来不大的数据集大小,您将期望总体管道执行速度比Hadoop的本地MR引擎快很多倍
关于python - 哪一个将文本文件和oracle表作为源,可以提供性能最佳的Hive或Pig或Python Mapreduce?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/29552853/