专题课程
【课程特色】
Hadoop生态系统是大数据技术事实标准,是大数据思想、理念、机制的具体实现,是整个大数据技术中公认的核心框架和具有很强的使用价值与研究价值。Hadoop 系统是一款开源软件,能够处理海量的各种结构(包括结构化、非结构化、半结构化)的数据。
Yarn是基于Hadoop的分布式集群资源管理框架;随着Hadoop集群应用的广泛,以及集群的规模越来越大,人们发现Hadoop MRv1存在诸多问题,因此Hadoop MRv2诞生,即现在的YARN,解决了4000节点的上限问题。
基于 Hadoop 的解决方案能够帮助企业应对多个大数据挑战,包括:
1、 分析海量(PB 级或者更多)的数据
Hadoop 能够分析所有数据,使得分析更准确,预测更准确;
2、 从多个数据类型的组合中获得新的洞察力
将来自多个数据源的不同类型的数据进行结合分析,发现新的数据关系和洞察力;
3、 存储大量的数据
由于它不依赖于高端硬件,且是可扩展的,所以使存储大量数据变得经济有效;
4、 数据发现(data discovery)和研究的沙箱
Hadoop 提供了一个地方,数据科学家可在此发现新的数据关系和相互依赖性。
工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出:
“2012 年美国联邦政府就在全球率先推出“大数据行动计划(Big data initiative)”,重点在基础技术研究和公共部门应用上加大投入。在该计划支持下,加州大学伯克利分校开发了完整的大数据开源软件平台“伯克利数据分析软件栈(Berkeley Data Analytics Stack),其中的内存计算软件Spark的性能比Hadoop 提高近百倍,对产业界大数据技术走向产生巨大影响”
----来源:工业和信息化部电信研究院
Spark是成为替代MapReduce架构的大数据分析技术,Spark的大数据生态体系包括流处理、图技术、机器学习等各个方面,并且已经成为Apache项目,可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。
国内外一些大型互联网公司已经部署了Spark,并且它的高性能已经得到实践的证明。国外Yahoo已在多个项目中部署Spark,尤其在信息推荐的项目中得到深入的应用;国内的淘宝、爱奇异、优酷土豆、网易、baidu、腾讯等大型互联网企业已经将Spark应用于自己的生产系统中。国内外的应用开始越来越广泛。Spark正在逐渐走向成熟,并在这个领域扮演更加重要的角色。
在2014 Spark Summit上,世界20家公司声明支持Spark,这些公司包括了四个Hadoop发行商Cloudera, Pivotal, MapR, Hortonworks,都提供了对非常强有力的支持Spark的支持:
1、 Hadoop的头号发行商Cloudera,在2014年7月份宣布“Impala’s it for interactive SQL on Hadoop; everything else will move to Spark”;
2、 2014年5月24日Pivotal宣布了会把整个Spark stack包装在Pivotal HD Hadoop发行版里面;这标志着四个Hadoop发行商Cloudera、Pivotal、MapR、Hortonworks都提供了对Spark的支持;
3、 2014年4月,Mahout表示将不再接受任何形式的以MapReduce形式实现的算法,Mahout宣布新的算法基于Spark;
4、 Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark;
【培训方式】
以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。
【目标收益】
1、 大数据生态圈各组件介绍,包括应用场景、架构原理等,主要包括Hadoop、HDFS、MapReduce、Hive、HBase、Spark;
2、 大数据平台搭建的实战,侧重讲解平台建设的安全性、性能调优、实际案例分析,基础搭建知识不需要过多讲解;
3、 大数据实战,大数据项目中架构,技术选型,安全保障等,以及经验分享;
4、 ETL基础组件Flume、Sqoop架构与使用,包括数据清洗的实际使用案例介绍;
5、 通过该课程学习使学员具备Hadoop企业级大数据管理与应用的能力;
6、 通过该课程学习使学员具备Hive企业级大数据分析的能力;
7、 通过该课程学习使学员具备HBase企业级大数据分布式NoSQL数据库的开发能力;
【培训对象】
1、 对大数据、分布式存储、分析等感兴趣的朋友;
2、 Java、PHP、C等任意一门编程语言的开发者;
3、 大型网站、电商网站等运维人员;
4、 云计算、大数据从业者;
5、 熟悉Hadoop生态体系,想了解和学习Hadoop与Spark整合在企业应用实战案例的朋友;
6、 系统架构师、系统分析师、高级程序员、资深开发人员;
7、 牵涉到大数据处理的数据中心运行、规划、设计负责人;
8、 政府机关,金融保险、移动互联网等大数据单位的负责人;
9、 高校、科研院所大数据研究人员,涉及到大数据与分布式数据处理的人员;
数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;
【培训时长】
5天
【课程大纲】