专题课程
【课程大纲】
1 Hadoop 的背景
1.1 大数据的金融时代
1.1.1 “颠覆”性的影响
1.1.2 重新“洗牌”的可能
1.2 为什么是 HADOOP ?
1.3 HADOOP 的生态环境概述
1.4 HADOOP 在银行业应用案例
1.4.1 阿里金融
1.4.2 银行业案例
1.5 HADOOP 与数据仓库等关系
1.6 去 IOE 的重任
1.7 金融业为何要选择 HADOOP ?
1.7.1 海量的大数据处理压力
1.7.2 非结构化数据的压力
1.7.3 互联网数据多源化的处理压力
2 HADOOP 在互联网业界及银行业案例分享
2.1 EBAY 混搭大数据案例
2.2 阿里云开放大数据案例
2.3 腾讯分布式大数据案例
2.4 百度大数据引擎案例
2.5 客户征信服务 客户征信服务 ——从 从 FICO 到 到 ZEST
2.6 某银行的大数据实际案例
3 HADOOP 技术介绍
3.1 发展历史
3.1.1 google 的影响
3.1.2 命名来源
3.2 HDFS 原理
3.2.1 适合做什么?
3.2.2 不适合做什么?
3.2.3 namenode 和 和 datanode
3.3 HA 方法
3.3.1 基本原理
3.3.2 HADOOP 2.0 的 的 HA 实现方法
3.4 MAP/REDUCE 原理
3.5 YARN 原理
3.5.1 2.0 引出的原因
3.5.2 与容器(docker )的关系
3.6 HIVE 和 HBASE
3.6.1 如何改善客户易用性?
3.6.2 内容和区别
3.7 HADOOP 的难点
3.7.1 安全性
3.7.2 可操作性
3.7.3 运维难题
3.8 MR 的具体编程案例
3.8.1 “hello world”
3.8.2 API 介绍及编程
3.8.3 案例及高级编程
4 HADOOP 实施的具体一些建议
4.1 版本的选择
4.2 硬件配置建议
4.3 规模估算
4.4 系统调优
4.5 参数设置建议
4.6 在金融业部署策略实施建议
5 HADOOP 自身技术的优化及案例
5.1 HADOOP 的平台调度优化及案例
5.2 HADOOP 平台加密预处理
5.3 基于 HADOOP 的自助分析工具
5.4 HADOOP 平台的高效加载探索
5.5 HADOOP 稳定性加固探索及案例
6 HADOOP 的实用案例
6.1 HADOOP 应用在“云化 ETL ”角度
6.1.1 提升数据加载速度
6.1.2 关键点
6.2 基于 HADOOP 的数据挖掘案例
6.2.1 基于“爬虫”的内容喜好分析
6.2.2 客户细分案例
6.3 基于 HADOOP 的海量数据查询案例
6.3.1 基于 HBASE 的查询案例
6.4 HADOOP 在银行应用的场景
6.4.1 ETL 过程加速
6.4.2 海量数据查询
6.4.3 客户挖掘分析
6.4.4 风险识别
6.5 HADOOP 应用面临的问题
6.5.1 “内升外降”的问题
6.5.2 公司 IT 体制的改革
6.5.3 “稳定性”问题
7 SPARK
7.1 背景
7.1.1 对 HADOOP 的改良
7.1.2 SPARK 的生态环境
7.2 SPARK 的实施建议
7.2.1 集群部署模式
7.2.2 版本选择
7.2.3 硬件配置建议
7.2.4 混搭建议
7.2.5 参数配置建议
7.2.6 SPARK 做金融业的应用场景
7.3 某公司 SPARK (500 节点)部署实际案例
7.3.1 建设历程
7.3.2 技术要点
计算引擎的高性能
如何实现多种异构环境透明访问
7.3.3 技术引入策略建议
7.3.4 运维建设经验
8 总结
8.1 大数据对金融传统 IT 的颠覆
8.2 HADOOP 技术的总结
8.3 SPARK 技术总结