泛读后发现完全不是这么回事。全书基本上都是在讲Hadoop以及Hadoop生态圈里面的相关工具和技术。如图2所示:
我由此联想到前段时间和一些业内人士进行技术交流,一谈到云计算,就说Hadoop怎么样?MapReduce怎么样?而在我看来,这里存在一个认识的误区。
这里我要强调一点:Hadoop≠云计算
云计算目前没有公认的定义,而NIST(美国国家标准与技术研究院)对云计算下的定义相对能得到广泛认可,NIST是这么定义云计算的。
云计算是一种按使用量进行付费的模式,这种模式提供可用的、便捷的、按需的网络访问,使用可配置的计算资源共享池,共享池的资源包括网络、服务器、存储、应用软件、服务等,这些资源能够通过云计算平台快速提供给客户,只需投入很少的管理工作,或与服务供应商进行很少的交互。
云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物。借助IaaS、PaaS、SaaS等业务模式,把强大的计算能力提供给终端用户。
云计算被称为是继大型计算机、个人计算机、互联网之后的第四次IT产业革命,它将成为带动IT、物联网、电子商务等诸多产业强劲增长、推动信息产业整体升级的基础。
而Hadoop是Apache基金会下的一款开源软件,它实现了包括分布式文件系统和MapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台,其已成为工业界和学术界进行云计算应用和研究的标准平台。
如果对Hadoop进行严格定义,那么Hadoop是一种针对大数据处理和分析的开源分布式计算平台,是一个基于Java的开源软件架构,运行分布的、数据密集型应用。
所以,Hadoop只是云计算的PaaS层的解决方案之一,并不等同于PaaS,更不用说等同于云计算本身了。图3把云计算的交付模式层次做了一个清晰的划分,如下所示:
所以,《深入浅出云计算》犯了一个概念性的错误,把Hadoop等同于云计算,或者说把Hadoop与云计算相提并论,这是不对的。如果把书名改成《深入浅出大数据处理》或者《深入浅出海量书籍处理》,那倒是比较贴切。