第二章 初识Hadoop
2.1Hadoop概述
名称由来:项目作者的孩子对黄色大象玩具的命名
开源、分布式存储与分布式计算的平台
在这里还是要推荐下我自己建的大数据学习群:199427210,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。
Hadoop能做什么:
1. 搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务
2. 搜索引擎、日志分析、数据挖掘、商业智能
2.2Hadoop核心组件
HDFS(分布式文件系统)
1. 源于Google在2003年10月发表的GFS论文
2. 对GFS的克隆
3. 特点:扩展性、容错性、海量数据存储
4. 将文件切分成指定大小的数据块并且多副本存于多个机器上
5. 数据切分、多副本、容错对用户是透明的
YARN(资源管理系统)
1. 整个集群资源的管理与调度
2. 特点:扩展性、容错性、多框架资源统一调度
MapReduce(分布式计算框架)
1. 2004年12月的GoogleMapReduce论文
2. Google MapReduce的克隆版
3. 特点:扩展性、容错性、海量数据的离线处理
2.3Hadoop优势
Hadoop优势之高扩展性
1. 存储/计算资源不够可以横向线性的扩展机器
2. 一个集群可以包含数以千计、万计的节点
Hadoop其他优势
1. 存储在低廉机器上、成本低廉
2. 成熟的生态圈
2.4Hadoop发展史
《Hadoop十年解读与发展预测》
狭义的Hadoop:适合于大数据的分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台。
广义的Hadoop:Hadoop生态系统,庞大的概念,hadoop是其中最重要最基础的一部分;生态系统中的每一个子系统针对特定的问题域(甚至可能更窄);不搞统一型的全能系统,而是小而精的多个小系统。
2.5Hadoop的生态系统
生态系统特点:
1. 开源、社区活跃
2. 囊括了大数据处理的方方面面
2.6Hadoop发行版的选择
1. Apache Hadoop
2. CDH(Cloudera Distributed Hadoop)
3.HDP(Hortonworks Data Platform)
2.7企业中的应用案例
1. 消费大数据
2. 商品零售大数据