最热门的两个词就要数”云计算”和”大数据”了.
云计算相关的技术总结起来包括IaaS, PaaS, SaaS.具体细节不是此文的重点.
关于大数据,现在最流行的技术就是Hadoop了.
Hadoop可以说是出身名门,由Google的三篇论文所启发,由YAHOO来主导初期开发.更经过了众多互联网巨头的实践部署,可以说现在没有哪家上规模的互联网公司不用hadoop.
随着hadoop的流行,相关的技术书籍也非常之多.其中最出名的就要说O’Reilly公司出版的<
O'Reilly出版的DefinitiveGuide系列一直深受IT从业者的欢迎,全面准确的技术介绍完全称得上权威之说.
Hadoop权威指南从2009年问世至今短短不到4年的时间已经发行了三版(今年刚刚发行的第三版),几乎是一年一版.不得不说hadoop技术发展之快,连作书也是一件极其”即时”的工作.也从一个侧面反映了hadoop的受欢迎程度,很难想象哪种技术书籍能有如此的更新速度.
本译本是2010年第二版.可能有人会觉得这本不够新,兴趣不大.
首先我要说的是,英文版翻译本来就有个时间. 尤其啃英文是个很痛苦的过程.
其次,比较第2版和第3版的目录我们就可以发现,里面的结构基本是一模一样.该有的第2版都有!.
这本书的一直就是hadoop从业者的床头圣经. 单扫一眼目录就可以对hadoop的整个家族有一个大致的了解.
单从目录就可以看到hadoop的家族确实大,Pig,Hive,Hbase,Zookeeper..这些都单独成章.还有一张CaseStudy,让我们很好的借鉴成熟案例,更快部署自己的hadoop集群.
没接触过hadoop的人可能对hadoop有两种疑问:
1. 他是分布式文件系统? 还是数据库?
2. 他和集群,HPC有啥区别?
这其实从Hadoop的两个核心组件的作用就可以得到解答:
HDFS, 是一种分布式文件系统,但是他主要的作用是支持datalocality的存储和failure-tolerant的计算.什么含义? 就是它是一个分布式存储,但是每个节点不单单是存储的作用,还有使用localdata计算的功能.
MapReduce 是一种分布式的并行计算框架. 专门处理分结构化数据的处理.尤其本身能够控制失败作业.程序员只要专心于业务逻辑的实现.不用考虑实现细节.这也支持导致hadoop的开发相当容易.
其技术细节基本就无用赘述了.现在应该不会有人问我hadoop是干嘛的?HDFS和MapReduce是干嘛的? 想知道答案的书里面找吧.
这本书里面有大量的例子,大量的代码(甚至是不同语言写就的),还有大量的案例供大家学习.通过被大的互联网公司广泛应用的成熟案例,加以研究,应用到自己的工作中,无疑更有把握.
祝大家学习愉快!