专题课程

大数据Hadoop&HDFS&MapReduce&Hive&HBase&Spark企业级典型实战

我要报名

编辑日期 2018-06-14　　阅读次数：833 次

【课程特色】

Hadoop生态系统是大数据技术事实标准，是大数据思想、理念、机制的具体实现，是整个大数据技术中公认的核心框架和具有很强的使用价值与研究价值。Hadoop 系统是一款开源软件，能够处理海量的各种结构（包括结构化、非结构化、半结构化）的数据。

Yarn是基于Hadoop的分布式集群资源管理框架；随着Hadoop集群应用的广泛，以及集群的规模越来越大，人们发现Hadoop MRv1存在诸多问题，因此Hadoop MRv2诞生，即现在的YARN，解决了4000节点的上限问题。

基于 Hadoop 的解决方案能够帮助企业应对多个大数据挑战，包括：

1、分析海量（PB 级或者更多）的数据

Hadoop 能够分析所有数据，使得分析更准确，预测更准确；

2、从多个数据类型的组合中获得新的洞察力

将来自多个数据源的不同类型的数据进行结合分析，发现新的数据关系和洞察力；

3、存储大量的数据

由于它不依赖于高端硬件，且是可扩展的，所以使存储大量数据变得经济有效；

4、数据发现(data discovery)和研究的沙箱

Hadoop 提供了一个地方，数据科学家可在此发现新的数据关系和相互依赖性。

工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出：

“2012 年美国联邦政府就在全球率先推出“大数据行动计划（Big data initiative）”，重点在基础技术研究和公共部门应用上加大投入。在该计划支持下，加州大学伯克利分校开发了完整的大数据开源软件平台“伯克利数据分析软件栈（Berkeley Data Analytics Stack），其中的内存计算软件Spark的性能比Hadoop 提高近百倍，对产业界大数据技术走向产生巨大影响”

----来源：工业和信息化部电信研究院

Spark是成为替代MapReduce架构的大数据分析技术，Spark的大数据生态体系包括流处理、图技术、机器学习等各个方面，并且已经成为Apache项目，可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。

国内外一些大型互联网公司已经部署了Spark，并且它的高性能已经得到实践的证明。国外Yahoo已在多个项目中部署Spark，尤其在信息推荐的项目中得到深入的应用；国内的淘宝、爱奇异、优酷土豆、网易、baidu、腾讯等大型互联网企业已经将Spark应用于自己的生产系统中。国内外的应用开始越来越广泛。Spark正在逐渐走向成熟，并在这个领域扮演更加重要的角色。

在2014 Spark Summit上，世界20家公司声明支持Spark，这些公司包括了四个Hadoop发行商Cloudera, Pivotal, MapR, Hortonworks，都提供了对非常强有力的支持Spark的支持：

1、 Hadoop的头号发行商Cloudera，在2014年7月份宣布“Impala’s it for interactive SQL on Hadoop; everything else will move to Spark”；

2、 2014年5月24日Pivotal宣布了会把整个Spark stack包装在Pivotal HD Hadoop发行版里面；这标志着四个Hadoop发行商Cloudera、Pivotal、MapR、Hortonworks都提供了对Spark的支持；

3、 2014年4月，Mahout表示将不再接受任何形式的以MapReduce形式实现的算法，Mahout宣布新的算法基于Spark；

4、 Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark；

【培训方式】

以课堂讲解、演示、案例分析为主，辅以互动研讨、现场答疑、学以致用。

【目标收益】

1、大数据生态圈各组件介绍，包括应用场景、架构原理等，主要包括Hadoop、HDFS、MapReduce、Hive、HBase、Spark；

2、大数据平台搭建的实战，侧重讲解平台建设的安全性、性能调优、实际案例分析，基础搭建知识不需要过多讲解；

3、大数据实战，大数据项目中架构，技术选型，安全保障等，以及经验分享；

4、 ETL基础组件Flume、Sqoop架构与使用，包括数据清洗的实际使用案例介绍；

5、通过该课程学习使学员具备Hadoop企业级大数据管理与应用的能力；

6、通过该课程学习使学员具备Hive企业级大数据分析的能力；

7、通过该课程学习使学员具备HBase企业级大数据分布式NoSQL数据库的开发能力；

【培训对象】

1、对大数据、分布式存储、分析等感兴趣的朋友；

2、 Java、PHP、C等任意一门编程语言的开发者；

3、大型网站、电商网站等运维人员；

4、云计算、大数据从业者；

5、熟悉Hadoop生态体系，想了解和学习Hadoop与Spark整合在企业应用实战案例的朋友；

6、系统架构师、系统分析师、高级程序员、资深开发人员；

7、牵涉到大数据处理的数据中心运行、规划、设计负责人；

8、政府机关，金融保险、移动互联网等大数据单位的负责人；

9、高校、科研院所大数据研究人员，涉及到大数据与分布式数据处理的人员；

数据仓库管理人员、建模人员，分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员；

【培训时长】

5天

【课程大纲】

上一篇：机器学习（Maching Learning）培训

下一篇：Scala语言与Spark大数据内存计算框架开发实战

首页课程体系公开课 PMI-ACP（R） CMMI 会员管理典型案例新闻资讯知识共享

7*24小时服务热线：400-676-1955

   上海总部：上海市静安区江场西路299弄中环时代广场5号楼　

   PMI, PMP, PMI-ACP and the PMI Registered Education Provider logo are registered marks of the Project Management Institute, Inc.
                                                Copyright © 2017 All Reserved　版权所有：上海艾纵企业管理咨询有限公司  免责声明  沪ICP备17050583号-1

返回顶部

时间	内容	备注
第一天	第1个主题：大数据介绍（深入剖析大数据）（90分钟） 1、什么是大数据 2、大数据的特征 3、大数据应用现状 4、大数据发展趋势 5、大数据生态体系介绍 6、大数据优势 7、大数据的核心技术 8、大数据与云计算之间的关系剖析 9、大数据与虚拟化之间的关系剖析 10、大数据与供应商剖析 11、大数据与成本投入的关系剖析 12、实例分享：马云预测经济危机案例剖析（20分钟）第2个主题： Hadoop生态体系（系统理解Hadoop生态体系）（120分钟） 1、什么是Hadoop 2、 Hadoop由来介绍 3、 Google四篇论文的剖析 a) GFS、MapReduce、BigTable、Chubby 4、 Hadoop的四大核心组件 5、 Hadoop相关概念 a) 块、副本 6、 Hadoop是大数据架构的事实标准 7、 Hadoop的四大核心组件 8、 Hadoop生态体系介绍 9、 Pig Hadoop客户端 10、 HBase大数据分布式NoSQL列式数据库 11、 Hive大数据的数据仓库 12、 Zookeeper分布式协调器 13、 Sqoop大数据导入导出工具 14、 Avro大数据系列化工具 15、 Chukwa大数据分布式数据收集系统 16、 Cassandra大数据分布式NoSQL列式数据库 17、 Ambari提供监控、管理Hadoop资源的工具 18、 Mahout Hadoop数据挖掘算法库 19、 Spark大数据内存计算框架 20、 Tez通用的数据流框架 21、 Hadoop 的数据文件格式介绍:JSON, SequenceFile, Avro 与 Parquet 第3个主题： Hadoop集群（深入理解Hadoop集群并部署Hadoop集群）（90分钟） 1、 Hadoop工作原理及架构 2、 Hadoop部署规划 3、 Hadoop部署优化 4、 Hadoop安全管理 5、 Hadoop HA部署介绍 6、 Hadoop集群的监控 7、动态增加Hadoop的Slave节点 8、 Hadoop集群的运维 9、 Hadoop 集群的多租户架构 10、 Hadoop 安全体系 11、案例分享：基于共享存储的Hadoop集群部署案例分享（10分钟） 12、案例分享：基于云计算集群的Hadoop集群部署案例分享（10分钟） 13、课堂实操：启动Hadoop集群4台机器（10分钟；老师带领学员一起操作，及学员问题指导员）第4个主题： HDFS大数据分布式文件系统（深入理解大数据分布式文件系统的原理与机制）（120分钟） 1、 HDFS架构剖析 2、 NameNode、DataNode、SecondaryNameNode介绍 3、 NodeName高可靠性典型实践 4、 DataNode中Block划分的原理和具体存储方式 5、 CLI操作HDFS 6、 Java操作HDFS 7、 RESTful操作HDFS 8、动态修改Hadoop的Replication数目 9、 Hadoop序列化 10、 Hadoop流压缩 11、 Hadoop RPC 12、 SequenceFile与MapFile 13、 Hadoop Avro 14、课堂实操：Hadoop与RAID之间的关系 15、课堂实操：Java语言读写HDFS文件系统（时长：20分钟；老师带领学员一起操作，及学员问题指导员）
时间	内容	备注
第二天	第5个主题： YARN剖析（深入理解YARN的原理和使用YARN的能力）（30分钟） 1、 YARN介绍 2、 YARN的设计思想 3、 YARN的核心组件 4、 YARN为核心的生态系统 5、 Yarn的HA机制 6、 YARN应用程序编写 7、 ResourceManager深入剖析 8、 ClientRMService与AdminService 9、 NodeManager深入剖析 10、 Container 第6个主题： MapReduce大数据批处理技术（深入理解MapReduce原理及培训开发MapReduce程序能力）（120分钟） 1、 MapReduce算法剖析 2、 MapReduce数据输入和输出； 3、 MapReduce编程思想 4、 MapReduce命令操作 5、 MapReduce运行过程解析