代码改变世界

随笔分类 -  大数据

Hadoop2.x生态系统的常用框架

2017-05-21 23:58 by Dr.CoCo, 831 阅读, 收藏,
摘要: 企业中的比较全面HADOOP的生态架构 HDFS :分布式文件系统 YARN:分布式资源管理 MapReduce:离线计算框架 Spark:内存计算框架 Hive:数据仓库 (HQL),提供一种类SQL的数据处理方法 Pig:一种数据流语言,用来快速轻松的处理巨大的数据 HBase:分布式数据库 O 阅读全文

大数据学习路线

2017-05-17 02:06 by Dr.CoCo, 186 阅读, 收藏,
摘要: 基础: 1.SQL功底 2.linux基础命令 3.JavaSE 第一阶段:Hadoop 2.x (HDFS、MapReduce、YARN) 第二阶段:大数据仓库Hive 第三阶段:大数据协作框架(sqoop、Flume、Oozie、Hue) 第四阶段:分布式数据库Hbase 第五阶段:流计算Sto 阅读全文

大数据协作框架【扫盲】

2017-05-17 00:43 by Dr.CoCo, 423 阅读, 收藏,
摘要: 大数据协作框架 第一个问题:hdfs存放的海量数据,数据来源是什么? 现实数据来源两个方面 * RDBMS(Oracle、Mysql,DB2...) > sqoop(SQL to HADOOP) * 文件(apache、nginx日志数据...) > Flume(实时抽取数据) 第二个问题:分析任务 阅读全文