在此技术报告中,Hadoop性能模型(http://arxiv.org/pdf/1106.0940.pdf)正在使用白盒模型来计算各种成本。但是我对他们的工作产生了怀疑-

  • 它们仍然适用于当前的Hadoop吗?
  • 我不太清楚他们在泄漏阶段如何做一些公式化处理,例如CPU_cost(报告的第6页)。
  • 最佳答案

    Starfish MapReduce调整系统基于引用报告中提供的性能模型。在顶级数据库/数据管理 session 上发表的一些论文中介绍了海星及其后续工作:

  • Herodotos Herodotou,Shivnath Babu:基于成本的MapReduce优化的假设引擎。 IEEE数据工程师公牛。 36(1):5-14(2013)
  • Herodotos Herodotou,Shivnath Babu:MapReduce程序的概要分析,假设分析和基于成本的优化。 PVLDB 4(11):1111-1122(2011)
  • Herodotos Herodotou,Fei Dong,Shivnath Babu:MapReduce编程和基于成本的优化吗?与海星穿越这个鸿沟。 PVLDB 4(12):1446-1449(2011)
  • Herodotos Herodotou,Harold Lim,Lang Gang,Nedyalko Borisov,Liang Dong,Fatma Bilgen Cetin,Shivnath Babu:海星:用于大数据分析的自调整系统。 CIDR 2011:261-272
  • Harold Lim,Herodotos Herodotou,Shivnath Babu:Stubby:基于转换的MapReduce工作流优化器。 CoRR abs / 1208.0082(2012)

  • 我在Github上发现了一个repository,看起来像其中包含了海星代码。

    论文和代码应包含更多细节。关于这些模型是否仍然适用于当前Hadoop的问题,我认为它们仍然可以使用。海星的作者也许可以在这里提供帮助。

    08-28 04:41