思数云hadoop目录 - xxxxxxxx1x2xxxxxxx

全文检索、数据分析挖掘、推荐系统、广告系统、图像识别、海量存储、快速查询

l Hadoop介绍 n Hadoop来源与历史 n Hadoop版本 n Hadoop开源与商业 l HDFS系统架构 n NameNode功能与原理 n DataNode功能与原理 n SecondaryNameNode功能与原理 n HDFS读取写入流程 n 理解HDFS Block l Hadoop权限与安全	l Hadoop运行模式介绍 l 实验： n 搭建单机版、伪分布式、分布式集群 n Hadoop命令使用 n 运行MapReduce Job l Hadoop运维案例介绍 l HDFS配置文件说明
第二天	l 集群规划 l 集群监控、告警 l 集群管理 l 集群配置最佳实践	l MapReduce简介 l JobTracker、TaskTracker功能 l Hadoop HDFS API介绍 l Hadoop WebHDFS API介绍 l 实验 n 使用Hadoop HDFS API
第三天	l MapReduce流程详解 l MapReduce开发详解 l MapReduce开发最佳实践 l MapReduce 调优 l Hadoop Streaming开发详解 l Pig语言详解	l MapReduce系统参数说明 l 实验： n 使用Java开发MapReduce程序 n 使用python开发MapReduce程序 n Pig开发MapReduce程序
第四天	l HBase简介和架构 HBase基本概念 HBase应用场景 HBase架构和核心模块介绍 HBase存储逻辑结构介绍 l HBase核心知识点基本方法：Get/Put/Scan/Delete 列式存储核心：LSM 日志系统：WAL 底层存储：HFile 复制、备份：Replication 过渡期：RIT 分裂、合并：Split/Compact 负载均衡：Load Balance	l HBase高级应用简单介绍批量记载：bulk load 监控系统：OpenTSDB 主键设计：key design 二级索引：secondary index 协处理器：Coprocessors HBase安装、部署、启动 l 【动手操作】集群下安装部署HBase 启动HBase，启动顺序测试启动 HBase常用接口、金融、政府案例 l 【小组讨论】 thrift接口案例（需求剖析、架构设计） l Hive使用 hive架构，一些特性 hive hadoop 配置 hive 配置文件 client工具介绍 hive hql介绍

一、Hadoop入门，了解什么是hadoop

1、 Hadoop产生背景

2、 Hadoop在大数据、云计算中的位置和关系

3、国内外Hadoop应用案例介绍

4、国内Hadoop的就业情况分析及课程大纲介绍

5、分布式系统概述

6、 Hadoop生态圈以及各组成部分的简介

7、 Hadoop核心MapReduce例子说明

二、分布式文件系统HDFS，是数据库管理员的基础课程

1、分布式文件系统DFS简介

2、 HDFS的系统组成介绍

3、 HDFS的组成部分详解

4、副本存放策略及路由规则

5、 NameNode Federation

6、命令行接口

7、 Java接口

8、客户端与HDFS的数据流讲解

9、 HDFS的可用性（HA）

三、初级MapReduce，成为Hadoop开发人员的基础课程

1、如何理解map、reduce计算模型

2、剖析伪分布式下MapReduce作业的执行过程

3、 Yarn模型

4、序列化

5、 MapReduce的类型与格式

6、 MapReduce开发环境搭建

7、 MapReduce应用开发

8、更多示例讲解，熟悉MapReduce算法原理

四、高级MapReduce，高级Hadoop开发人员的关键课程

1、使用压缩分隔减少输入规模

2、利用Combiner减少中间数据

3、编写Partitioner优化负载均衡

4、如何自定义排序规则

5、如何自定义分组规则

6、 MapReduce优化

7、编程实战

五、Hadoop集群与管理，是数据库管理员的高级课程

1、 Hadoop集群的搭建

2、 Hadoop集群的监控

3、 Hadoop集群的管理

4、集群下运行MapReduce程序

六、ZooKeeper基础知识，构建分布式系统的基础框架

1、ZooKeeper体现结构

2、ZooKeeper集群的安装

3、操作ZooKeeper

七、HBase基础知识，面向列的实时分布式数据库

1、 HBase定义

2、 HBase与RDBMS的对比

3、数据模型

4、系统架构

5、HBase上的MapReduce

6、表的设计

八、HBase集群及其管理

1、集群的搭建过程讲解

2、集群的监控

3、集群的管理

九、HBase客户端

1、 HBase Shell以及演示

2、Java客户端以及代码演示

十、Pig基础知识，进行hadoop计算的另一种框架

1、 Pig概述

2、安装Pig

3、使用Pig完成手机流量统计业务

十一、Hive，使用sql进行计算的hadoop框架

1、数据仓库基础知识

2、 Hive定义

3、 Hive体系结构简介

4、 Hive集群

5、客户端简介

6、 HiveQL定义

7、 HiveQL与SQL的比较

8、数据类型

9、表与表分区概念

10、表的操作与CLI客户端演示

11、数据导入与CLI客户端演示

12、查询数据与CLI客户端演示

13、数据的连接与CLI客户端演示

14、用户自定义函数（UDF）的开发与演示

十二、Sqoop，hadoop与rdbms进行数据转换的框架

1、配置Sqoop

2、使用Sqoop把数据从mysql导入到HDFS中

3、使用Sqoop把数据从HDFS导出到mysql中

十三、大数据实战

互联网大数据收集、存储、数据使用完整架构和操作

Hadoop背景介绍	HDFS使用
Hadoop生态系统概览	HDFS命令行工具
Hadoop分布式文件系统(HDFS)	启动、停止HDFS服务
什么是HDFS	如何查看HDFS日志
HDFS设计目标	查看HDFS Web控制台
HDFS系统特点	HDFS配置参数
HDFS工作原理	上机开发环境介绍
HDFS服务进程	HDFS开发
	Java API详解
	FuseHDFS
	WebHDFS Restful API
	上机练习
第二天上午（9:00-12:00）	第二天下午（13:00-16:00）
MapReduce分布式计算框架	MapReduce示例程序解析
什么是MapReduce	MapReduce框架类库介绍
MapReduce服务	MapReduce实战，你的第一个MapReduce项目
MapReduce工作机制	项目需求简述
MapReduce调度管理	项目设计讨论
MapReduce参数设置	项目伪代码分析
启动、停止MapReduce服务	项目实现，上机练习
如何查看MapReduce日志
查看MapReduce Web控制台
第三天上午（9:00-12:00）	第三天下午（13:00-16:00）
MapReduce进阶实战	如何用其它语言开发MapReduce应用
项目性能优化	MapReduce常用算法（Sort、Index、Join、IF-IDF等）介绍
上机练习	Hadoop生态系统介绍
项目结果分类汇总	HBase入门
上机练习	利用Oozie对MapReduce任务进行调度
项目结果排序	利用Flume NG 和 Sqoop与各种数据源对接
上机练习	利用Hive和Pig来简化MapReduce的开发
	ZooKeeper介绍

Hadoop背景介绍	HHDFS实战
Hadoop生态系统概览	Hadoop安装
Hadoop分布式文件系统(HDFS)	HDFS命令行工具
什么是HDFS	启动、停止HDFS服务
HDFS设计目标	如何查看HDFS日志
HDFS系统特点	查看HDFS Web控制台
HDFS工作原理	HDFS配置参数
HDFS服务进程
第二天上午（9:00-12:00)	第二天下午（13:00-16:00）
MapReduce分布式计算框架	集群规划
什么是MapReduce	系统及硬件推荐配置
MapReduce服务	集群性能评估
MapReduce工作机制	集群维护与管理
MapReduce调度管理	查看集群状态
上机实验	上机实验
运行MapReduce任务	模拟集群失效
MapReduce参数设置	上机实验
启动、停止MapReduce服务	添加删除节点
如何查看MapReduce日志	数据平衡
查看MapReduce Web控制台	元数据备份
	文件数据跨集群拷贝
	集群升级
	Ganglia（运维工具）
	Ganglia简介
	Ganglia与Hadoop的集成
	Hadoop中可监控的项目介绍
	Hadoop生态系统介绍

hive

Hive

u Hive概念

u Hive架构原理

u 如何利用Hive用户接口提交作业

u Hive主要配置详解

u HiveQL语法讲解及使用

u 编写UDF及UDAF、UDTF函数

u Hive与HBase的整合

u HiveQL优化

u实际案例讲解

u 目标：掌握HQL语法及调优方法

u 实验：使用HQL语句和自定义函数实现简单和复杂的数据统计

hbase:

u HBase简介

u HBase部署、配置

u 客户端API:管理功能

u 客户端API:CRUD

u HBase常用命令

u HBase交互方式

u HBase架构

u 过滤器

u 协处理器

u 集群管理和监控

u 性能优化

u HBase运维管理

u HBase发展趋势

u 目标：掌握HBase主要功能，熟练使用API开发应用程序，掌握集群运维方法

u 实验：

u 部署HBase集群

u 通过Java程序管理表

u 通过Java程序增删改查数据

u 编写过滤器精细控制数据

u 编写2种协处理器程序

u HBase表管理

u HBase Region转移和备份

u Split&Compact策略

u regionserver日常维护

u master日常维护

zookeeper:

ZooKeeper

u 概念介绍和基本原理

u 集群安装部署

u Zookeeper Server角色

u Zookeeper Server选举、同步和工作流程

u Leader的工作流程

u Follower的工作流程

u Zookeeper的扩展

u Zookeeper的应用场景

u Zookeeper性能调优

u 数据一致性与Paxos算法

u 目标：了解ZooKeeper在Hadoop系统中的作用，掌握基本运维知识

u 实验：搭建ZooKeeper集群

flume:

u Flume简介

u Flume架构设计

u Flume原理及常见配置

u Flume部署、安装、配置

u Flume常用Source、Sink、Decorator

u Flume常用命令

u Flume与Hadoop、HBase集成

u 编写Source、Sink、Decorator插件

u 目标：掌握Flume Agent和Collector配置

spark:

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoo 文件系统中并行运行。
通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

课程	技术原理	动手操作
Spark	Spark的简介 Spark的原理 Spark与hadoop的比较 Spark安装 Mesos介绍 Mesos安装 Spark生态系统介绍 Spark核心概念 Spark语言学习 Spark语言学习 Spark案例实战	实验：安装使用

storm:

Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架（原来是由BackType开发，后BackType被Twitter收购，将Storm作为Twitter的实时数据分析）。实时数据处理的应用场景很广泛。这种高可拓展性，能处理高频数据和大规模数据的实时流计算解决方案将被应用于实时搜索，高频交易和社交网络上。而流计算并不是最近的热点，金融机构的交易系统正是一个典型的流计算处理系统，它对系统的实时性和一致性有很高要求。

twitter列举了storm的三大作用领域：

1）信息流处理（Stream Processing）

Storm可以用来实时处理新数据和更新数据库，兼具容错性和可扩展性。

2）连续计算（Continuous Computation）

Storm可以进行连续查询并把结果即时反馈给客户，比如将Twitter上的热门话题发送到客户端。

3）分布式远程过程调用（Distributed RPC）

Storm可以用来并行处理密集查询，Storm的拓扑结构（后文会介绍）是一个等待调用信息的分布函数，当它收到一条调用信息后，会对查询进行计算，并返回查询结果。

机器学习概述	数据处理统计分析数据挖掘模型预测结果呈现
k-近邻算法
决策树
基于概率论的分类方法：朴素贝叶斯
Logisstic回归
支持向量机
利用AdaBoost元算法提高分类性能
预测数值型数据：回归
树回归
利用k-均值聚类算法对未标注数据分组
使用Apriori算法进行关联分析
使用FP-growth算法来高效发现频繁项集
利用PCA来简化数据
利用SVD来简化数据
大数据与MapReduce

课程	技术原理	动手操作
Storm	Storm简介 Storm安装部署 Storm架构及工作原理详解命令详解二次开发编写维护管理案例

pig:

Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

课程	技术原理	动手操作
Pig	u Pig简介 u 安装和运行Pig u Pig Latin详解 u 命令行使用以及配置选项介绍

电信行业:

第一天	l 电信业大数据概述 n 电信业大数据现状（联通、移动、电信）和挑战 n 电信业大数据解决方案 l Hadoop介绍 n Hadoop来源与历史 n Hadoop版本 n Hadoop开源与商业 l HDFS系统架构 n NameNode功能与原理 n DataNode功能与原理 n SecondaryNameNode功能与原理 n HDFS读取写入流程 n 理解HDFS Block l Hadoop权限与安全	l Hadoop运行模式介绍 l 实验： n 搭建单机版、伪分布式、分布式集群 n Hadoop命令使用 n 运行MapReduce Job l Hadoop运维案例介绍 l HDFS配置文件说明
第二天	l 集群规划 l 集群监控、告警 l 集群管理 l 集群配置最佳实践	l MapReduce简介 l JobTracker、TaskTracker功能 l Hadoop HDFS API介绍 l Hadoop WebHDFS API介绍 l 实验 n 使用Hadoop HDFS API
第三天	l MapReduce流程详解 l MapReduce开发详解 l MapReduce开发最佳实践 l MapReduce 调优 l Hadoop Streaming开发详解 l Pig语言详解	l MapReduce系统参数说明 l 实验： n 使用Java开发MapReduce程序 n 使用python开发MapReduce程序 n Pig开发MapReduce程序
第四天	l HBase简介和架构 HBase基本概念 HBase应用场景 HBase架构和核心模块介绍 HBase存储逻辑结构介绍 l HBase核心知识点基本方法：Get/Put/Scan/Delete 列式存储核心：LSM 日志系统：WAL 底层存储：HFile 复制、备份：Replication 过渡期：RIT 分裂、合并：Split/Compact 负载均衡：Load Balance l 电信行业应用案例案例1 案例2	l HBase高级应用简单介绍批量记载：bulk load 监控系统：OpenTSDB 主键设计：key design 二级索引：secondary index 协处理器：Coprocessors HBase安装、部署、启动 l 【动手操作】集群下安装部署HBase 启动HBase，启动顺序测试启动 HBase常用接口、金融、政府案例 l 【小组讨论】 thrift接口案例（需求剖析、架构设计） l Hive使用 hive架构，一些特性 hive hadoop 配置 hive 配置文件 client工具介绍 hive hql介绍

大数据技术高薪就业班

培训时长：

8天，推荐就业详情参见www.bihadoop.com

课程目标：

1、了解Hadoop的历史及目前发展的现状、以及Hadoop的技术特点，从而把握分布式计算框架及未来发展方向，在大数据时代能为企业的技术选型及架构设计提供决策参考。

2、全面掌握Hadoop的架构原理和使用场景，并通过贯穿课程的项目进行实战锻炼，从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍，帮助学员为企业在利用大数据方面体现自身价值。

3、深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识，可以独立规划及部署生产环境的Hadoop集群，掌握Hadoop基本运维思路和方法，对Hadoop集群进行管理和优化。

招生对象：

本课程适合于有一定java基础知识，对数据库和sql语句有一定了解，熟练使用linux系统的学生，特别适合于大专院校计算机专业的学生，开发基础薄弱的未就业人士以及在职程序员(无Java和数据库基础学生，需要增加前置课程，2个月，咨询客服）。

课程安排

一、Hadoop入门，了解什么是hadoop	1、 Hadoop产生背景 2、 Hadoop在大数据、云计算中的位置和关系 3、国内外Hadoop应用案例介绍 4、国内Hadoop的就业情况分析及课程大纲介绍 5、分布式系统概述 6、 Hadoop生态圈以及各组成部分的简介 7、 Hadoop核心MapReduce例子说明
二、分布式文件系统HDFS，是数据库管理员的基础课程	1、分布式文件系统DFS简介 2、 HDFS的系统组成介绍 3、 HDFS的组成部分详解 4、副本存放策略及路由规则 5、 NameNode Federation 6、命令行接口 7、 Java接口 8、客户端与HDFS的数据流讲解 9、 HDFS的可用性（HA）
三、初级MapReduce，成为Hadoop开发人员的基础课程	1、如何理解map、reduce计算模型 2、剖析伪分布式下MapReduce作业的执行过程 3、 Yarn模型 4、序列化 5、 MapReduce的类型与格式 6、 MapReduce开发环境搭建 7、 MapReduce应用开发 8、更多示例讲解，熟悉MapReduce算法原理
四、高级MapReduce，高级Hadoop开发人员的关键课程	1、使用压缩分隔减少输入规模 2、利用Combiner减少中间数据 3、编写Partitioner优化负载均衡 4、如何自定义排序规则 5、如何自定义分组规则 6、 MapReduce优化 7、编程实战
五、Hadoop集群与管理，是数据库管理员的高级课程	1、 Hadoop集群的搭建 2、 Hadoop集群的监控 3、 Hadoop集群的管理 4、集群下运行MapReduce程序
六、ZooKeeper基础知识，构建分布式系统的基础框架	1、ZooKeeper体现结构 2、ZooKeeper集群的安装 3、操作ZooKeeper
七、HBase基础知识，面向列的实时分布式数据库	1、 HBase定义 2、 HBase与RDBMS的对比 3、数据模型 4、系统架构 5、HBase上的MapReduce 6、表的设计
八、HBase集群及其管理	1、集群的搭建过程讲解 2、集群的监控 3、集群的管理
九、HBase客户端	1、 HBase Shell以及演示 2、Java客户端以及代码演示
十、Pig基础知识，进行hadoop计算的另一种框架	1、 Pig概述 2、安装Pig 3、使用Pig完成手机流量统计业务
十一、Hive，使用sql进行计算的hadoop框架	1、数据仓库基础知识 2、 Hive定义 3、 Hive体系结构简介 4、 Hive集群 5、客户端简介 6、 HiveQL定义 7、 HiveQL与SQL的比较 8、数据类型 9、表与表分区概念 10、表的操作与CLI客户端演示 11、数据导入与CLI客户端演示 12、查询数据与CLI客户端演示 13、数据的连接与CLI客户端演示 14、用户自定义函数（UDF）的开发与演示
十二、Sqoop，hadoop与rdbms进行数据转换的框架	1、配置Sqoop 2、使用Sqoop把数据从mysql导入到HDFS中 3、使用Sqoop把数据从HDFS导出到mysql中
十三、大数据实战	大数据完整项目架构和开发过程练习

posted on 2016-06-23 19:15 xxxxxxxx1x2xxxxxxx 阅读(315) 评论(0) 收藏举报

刷新页面返回顶部

yyyyyyyyyyyyyyyyyyyy

公告