第3阶段：大数据阶段大纲(36天)

天数	授课大纲	要点	详细内容
4天	Linux操作系统基础	Linux的介绍和安装	linux系统简介与安装
		Linux的介绍和安装	vmware虚拟机网络配置
		Linux常用命令	linux常用命令--文件操作
			linux常用命令--用户管理与权限
			linux常用命令--系统管理
			linux常用命令--免密登陆配置与网络管理
		linux环境基本配置	主机名的修改
			IP地址的修改
			host文件配置
			linux防火墙配置
		linux上常用软件安装	JDK的安装
			tomcat的安装
			RPM包管理器的使用
			MySQL安装
			linux本地yum源配置及yum软件安装
		Linux高级命令	linux高级文本处理命令cut、sed、awk
		Linux高级命令	linux定时任务crontab
		shell编程	shell编程--基本语法
			shell编程--流程控制
			shell编程--函数
			shell编程--综合案例--自动化部署脚本
	MySQL查询增强	MySQL复杂查询实战	分组查询实战
			关联查询实战
			子查询实战
			常见SQL面试题讲解
6天	HADOOP&HDFS基础	HADOOP概述	hadoop背景介绍
			分布式系统概述
			离线数据分析流程介绍
		HADOOP集群搭建	集群搭建
			服务器环境准备
			免密登陆配置
			配置参数修改说明
		HADOOP集群操作入门	集群启动停止
			集群状态查看
			命令行上传下载文件
			MR示例程序运行
		HDFS基础	HDFS的概念和特性
		HDFS基础	HDFS的shell(命令行客户端)操作
	HDFS应用与加强	HDFS编程	HDFS的客户端编程API
			案例1：开发shell采集脚本
			案例2：开发JAVA采集程序
		HDFS工作机制	HDFS工作机制整体概述
			NAMENODE的工作机制
			DATANODE的工作机制
		HDFS集群故障恢复	元数据损坏恢复
		HDFS集群故障恢复	安全模式的处理
	MAPREDUCE编程模型	MAPREDUCE编程模型	MAPREDUCE计算模型解析
			MAPREDUCE编程规范及示例编写
			MAPREDUCE程序运行模式及debug方法
		MAPREDUCE编程实战	MAPREDUCE编程实例1：序列化应用
			MAPREDUCE编程实例2：secondary sort
			MAPREDUCE编程实例3：partition应用
			MAPREDUCE编程实例4：好友分析
			MAPREDUCE编程实例5：combiner应用
	MAPREDUCE高级特性	MAPREDUCE高级编程接口	自定义Inputformat
			自定义Outputformat
			自定义Groupingcomparator
			DistributeCache应用：map端join
		MAPREDUCE高级特性应用	MAPREUDCE的数据压缩
			MAPREDUCE的shuffle机制
			MAPREDUCE的并行度
			MAPREUDCE调优解析
		高级特性编程实战	MAPREDUCE编程案例：流量日志增强
	HIVE	HIVE安装	hive简介
		HIVE安装	hive安装部署
		HIVE工作机制	hive元数库概念
		HIVE工作机制	hive数据存储
		HQL基本语法	DDL
		HQL基本语法	DML
	HIVE	HIVE数据类型详解	基本数据类型
		HIVE数据类型详解	复合数据类型
		HIVE函数详解	内置函数
		HIVE函数详解	自定义函数编程
		HIVE综合案例	日志数据统计分析
		HIVE调优	HQL调优
			参数调优
			结合MAPREDUCE调优
			数据倾斜调优
	FLUME/SQOOP/AZKABAN	FLUME	FLUME入门
			FLUME应用实例
			FLUME自定义拦截器案例：数据过滤与脱敏
			FLUME高可用集群搭建
		SQOOP	SQOOP入门
		SQOOP	SQOOP应用实例
		AZKABAN	AZKABAN入门
			AZKABAN安装部署
			AZKABAN应用实例
6天	大数据实战项目（一）某亿级用户社交App数据分析系统	项目简介	项目概述
			项目演示
			项目业务背景
			数据处理流程
		数据采集	定时打包
			周期汇总上传
			采集监控
		数据预处理	数据字段提取、清洗
		数据预处理	数据按产品分目录存放
		活跃用户统计	业务介绍
			Hive数据仓库建模
			MR统计开发
			数据入库Hive
		新增用户渠道分析	渠道相关业务介绍
			App市场渠道
			广告渠道
			自有网站渠道
			搜索引擎渠道
			其他渠道
		用户升级统计	用户升级业务说明
			当日各渠道升级用户分析
			升级漏斗模型分析
			老用户升级分析
		累计用户统计	各渠道累计用户统计
			全量累计用户统计
			累计用户趋势对比统计
		报表展示	技术介绍
			环境搭建
			查询的使用
			报表展示
4天	Scala函数式变成	Scala快速入门	scala编程介绍
			scala相关软件安装
			scala基础语法
			scala编程介绍
			scala相关软件安装
			scala基础语法
		函数式编程	scala方法和函数
			scala函数式编程特点
			scala数组和集合
			scala编程练习（单机版WordCount）
		面向对象	类的定义
			构造器与辅助构造器
			继承
			实现特质
		模式匹配	按类型匹配
			case class
			Option/Some/None
			偏函数
		Actor并发编程	Actor编程模型简介
			Actor编程模型简介与Java传统多线程的区别
			Actor编程实战
		高阶函数	柯里化
		高阶函数	call by name/call by value
		隐式转换	隐式转换的作用
			隐式转换的优点
			隐式转换原理剖析
			隐式转换案例
		分布式RPC编程案例	RPC编程实现原理介绍
			Akka框架介绍
			Akka原理剖析
			Akka入门案例
			实战：RPC编程实战
10天	Spark内存计算（以Spark2.x最新版本为主，同时兼顾Spark1.x）	Spark Core	Spark简介
			Spark和Hadoop、Storm的对比
			Spark集群部署
			Spark高可用集群搭建
			Spark-Shell的使用
			Spark整合HDFS
			用Scala语言编写Spark应用程序WordCount
			用Java语言编写Spark应用程序WordCount
			Spark常用算子介绍
			Transformation算子
			Action算子
			RDD简介
			RDD的特点说明
			RDD的比较复杂的算子
			案例：用户最常出现的位置
			Spark的WordCount执行相信流程解析
			RDD的缓存机制
			案例：URL求TopN
			自定义分区
			二次排序
			自定义排序
			RDD的checkpoint机制
			广播变量
			案例：根据IP求归属地
			Spark远程调试
			Maven编译Spark源码
			宽依赖和窄依赖
			RDD的血统关系
			DAG切分过程
			案例：利用JdbcRDD导入数据
		Spark SQL	Spark-SQL介绍
			Spark-SQL的使用
			Spark2.0的Spark-SQL的使用和新特性
			DataFrame和DataSet的使用
			Spark-SQL加载并处理MySQL中的数据
			利用Spark-SQL讲数据写入到MySQL中
			Spark-SQL整合Hive
			Spark-SQL综合案例1
			Spark-SQL综合案例2
		SparkStreaming	Spark-Streaming简介
			编写Spark-Streaming的WordCount程序
			可更新状态的WordCount程序
			Spark-Streaming整合Flume
			Kafka的介绍
			Kafka集群的安装
			Kafak相关概念介绍
			Kafka生产者和消费者程序编写
			Kafka的Topic的相关操作
			Kafka原理深入
			Spark-Streaming整合Kafka
			案例：Spark-Streaming实时统计小区流量
			Spark-Streaming窗口函数
			Spark-Streaming直连方式整合Kafka
			直连方式原理分析
		Spark On Yarn和Spark2.0新特性	yarn知识点回顾
			Spark On YARN两种方式Cluster和Client
			两种方式过程分析
			Spark On YARN常见问题分析
			Spark2.0简介
			Spark2.0安装部署
			DataSet的使用
			利用Spark2.0编写一个WordCount程序
			Spark2.0常用算子的使用
			Spark2.0综合案例
Spark源码分析	Master启动流程源码分析
	Worker启动流程源码分析
	Spark应用程序提交构成源码分析
	SparkContext创建过程源码分析
	ClientActor提交任务给Master过程源码分析
	Master资源调度源码分析
	Master通知Worker启动Executor过程源码分析
	Executor跟DriverActor通信过程源码分析
	任务提交整理流程源码分析
	DAGSchedule执行过程分析
	DAG切分Stage过程源码分析
	TaskScheduler提交Task过程源码分析
	Executor上执行Task过程源码分析
6天	大数据实战项目（二）精准广告推送系统数据平台	业务介绍及BI离线分析	实时竞价RTB广告系统数据业务流程
			实时竞价RTB广告系统技术架构
			实时竞价RTB广告系统数据埋点和采集/flume插件开发
			实时竞价RTB广告系统离线BI报表分析
		数据采集	页面数据采集埋点
			数据采集汇聚（字段过滤，数据脱敏处理）
			数据存储格式Parquet应用及详解
		用户画像分析	数据清洗/预处理
			用户画像——人口属性标签分析
			用户画像——兴趣爱好标签分析
			用户画像——地理位置信息标签分析
			地理位置信息分析难点技术实现——GIS算法结合HBASE应用
			用户画像——职业属性标签分析
			其他更多属性标签分析
		数据关联聚合分析	用户数据唯一标识识别
			唯一标识识别核心技术点——spark graphx图计算
			离散数据关联聚合
		广告效果实时数据监控分析	PV UV IP分析
			点击量、点击率
			参与竞价数、竞价成功数
			消费
			转化率分析
			曝光率分析
		报表可视化平台系统	SSM框架搭建
		报表可视化平台系统	Echarts应用

posted on 2018-01-03 15:08 未来_我来阅读(543) 评论(0) 收藏举报