Apache Hadoop是一套用于在由通用硬件构建的大型集群上运行应用程序的框架。它实现了Map/Reduce编程范型,计算任务会被分割成小块(多次)运行在不同的节点上。
除此之外,它还提供了一款分布式文件系统(HDFS),数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。
框架作用
Apache Hadoop大数据归属的新选择
物理DAS仍然是Apache Hadoop最好的存储介质,因为相关的高水平的专业和业务的公司的都是经过研究和实践来确定存储介质。但这样基于HDFS的Apache Hadoop数据储存却有很大的问题。
首先,默认方案是所有Apache Hadoop资料进行复制,移动,然后备份。HDFS是基于Apache Hadoop大数据块的I/O优化,省去了Apache Hadoop数据交互的时间。以后的使用通常意味着Apache Hadoop数据复制出来。尽管有本地快照,但他们并不完全一致或时间点不完全可恢复。
对于这些和其他原因,企业存储厂商聪明的将HDFS做改变,一些技术狂人类型的大数据专家使Apache Hadoop计算利用外部存储。但对许多企业来说,Apache Hadoop提供了一个很好的妥协:无需高维护存储或存储新的维护方式的适应,但这有一定的成本。
许多Apache Hadoop供应商,提供对Apache Hadoop集群远程HDFS的接口,是生意量比较大的Apache Hadoop企业首选。因为他们将是在isilon里,进行任何其他Apache Hadoop数据处理大数据的保护,其中包括Apache Hadoop安全和其他问题。另一个好处是,在外部存储的数据通常可以访问其他Apache Hadoop协议的储存,支持工作流和限制数据的传输和企业内需要的数据副本。Apache Hadoop也基于这样的原理处理大数据,一个大的数据参考架构,结合一个组合的存储解决方案,直接进入Apache Hadoop集群。
另外值得一提的是,虚拟化Apache Hadoop大数据分析。理论上,所有计算和存储节点可以都可以进行虚拟化。VMware和RedHat/OpenStack有Hadoop的虚拟化解决方案。然而,几乎所有的Apache Hadoop主机节点不能解决企业的存储问题。它模拟Apache Hadoop计算方面使企业把现有的数据集——SAN/NAS——加速和转储到它Apache Hadoop的HDFS的覆盖之下。在这种方式中,Apache Hadoop大数据分析可以做到一个数据中心的数据没有任何变动,从而使用新的Apache Hadoop存储架构和新的数据流或数据管理的所有变化。
大多数Apache Hadoop分布都是从近Apache Hadoop的开源HDFS(目前软件定义的存储大数据)开始,区别是Apache Hadoop采取了不同的方法。这基本上就是企业Apache Hadoop所需存储,从而建立自己的兼容存储层在Apache Hadoop HDFS上。MAPR版本是完全有能力处理I/O快照复制的支持,Apache Hadoop同时和原生支持的其他协议兼容,如NFS。Apache Hadoop也非常有效,并有助于主要提供企业业务智能应用程序,运行决策支持解决方案依赖于大数据的历史和实时信息。类似的想法,IBM已经出炉的高性能计算系统存储API为Apache Hadoop发行版作为一种替代HDFS
另一个Apache Hadoop有趣的解决方案可以帮助解决数据的问题。一个是dataguise,数据安全启动,能切实有效地保护Apache Hadoop的大数据集的一些独特的IP,Apache Hadoop可以在一个大的数据聚类自动识别和全局覆盖或加密敏感资料。水平线数据科学是这个领域的新兴技术,如果你连线登陆你的数据文件到Apache Hadoop,无论数据在哪里,即使是HDFS,Apache Hadoop都将自动储存。Apache Hadoop 大数据提供的产出物有助于快速建立商业应用,利用数据的来源和位置来统计商业所需的资料。
如果你一直持有Apache Hadoop的管理或企业数据中心存储的兴趣,这是一个好时机去update自己对Apache Hadoop大数据的了解,如果你想跟得上Apache Hadoop大数据的脚步,就不应该拒绝Apache Hadoop新技术的应用。
更多Apache相关技术文章,请访问Apache使用教程栏目进行学习!
以上就是apache hadoop是什么的详细内容,更多请关注Work网其它相关文章!