随笔分类 -  21-大数据

该文被密码保护。
posted @ 2019-03-06 18:26 黑泽君
摘要:HBase默认配置文件注释解析: hbase-default.xml 阅读全文
posted @ 2019-03-06 17:35 黑泽君
摘要:第1章 Kafka概述1.1 消息队列1.2 为什么需要消息队列1.3 什么是Kafka1.4 Kafka架构第2章 Kafka集群部署2.1 环境准备2.1.1 集群规划2.1.2 jar包下载2.2 Kafka集群部署2.3 Kafka命令行操作第3章 Kafka工作流程分析3.1 Kafka 阅读全文
posted @ 2019-03-06 00:00 黑泽君
摘要:第1章 Flume概述1.1 Flume定义1.2 Flume组成架构1.2.1 Agent1.2.2 Source1.2.3 Channel1.2.4 Sink1.2.5 Event1.3 Flume拓扑结构1.4 Flume Agent内部原理1.5 Hadoop三大发行版本第2章 Flume快 阅读全文
posted @ 2019-03-04 15:43 黑泽君
摘要:一、知识梳理1.1、背景表结构1.1.1、order by1.1.2、sort by1.1.3、distribute by1.1.4、cluster by1.2、行转列、列转行(UDAF 与 UDTF)1.2.1、行转列1.2.2、列转行1.3、建表时的数组操作1.4、orc 存储1.5、Hive 阅读全文
posted @ 2019-03-03 00:16 黑泽君
摘要:第10章 Hive实战之谷粒影音10.1 需求描述10.2 项目10.2.1 数据结构10.2.2 ETL原始数据10.3 准备工作10.3.1 创建表10.3.2 导入ETL后的数据到原始表10.3.3 向ORC表插入数据10.4 业务分析10.4.1 统计视频观看数Top1010.4.2 统计视 阅读全文
posted @ 2019-03-02 14:44 黑泽君
摘要:第8章 压缩和存储(Hive高级)8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩编码8.2.2 压缩参数配置8.3 开启Map输出阶段压缩8.4 开启Reduce输出阶段压缩8.5 阅读全文
posted @ 2019-02-28 19:40 黑泽君
摘要:第6章 查询6.1 基本查询(select … from)6.1.1 全表和特定列查询6.1.2 列别名6.1.3 算术运算符6.1.4 常用函数(聚合函数)6.1.5 limit语句6.2 where语句6.2.1 比较运算符(between/in/is null)6.2.2 like和rlike 阅读全文
posted @ 2019-02-27 18:19 黑泽君
摘要:第4章 DDL数据定义4.1 创建数据库4.2 查询数据库4.2.1 显示数据库4.2.2 查看数据库详情4.3.3 切换当前数据库4.3 修改数据库4.4 删除数据库4.5 创建表4.5.1 管理表(内部表)4.5.2 外部表4.5.3 管理表与外部表的互相转换4.6 分区表4.6.1 分区表基本 阅读全文
posted @ 2019-02-25 21:30 黑泽君
摘要:第1章 Hive入门1.1 什么是Hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和数据库比较1.4.1 查询语言1.4.2 数据存储位置1.4.3 数据更新1.4.4 索引1.4.5 执行1.4.6 执行延迟1.4.7 可扩展性1.4.8 数 阅读全文
posted @ 2019-02-25 00:28 黑泽君
摘要:第8章 HDFS HA 高可用8.1 HA概述8.2 HDFS-HA工作机制8.2.1 HDFS-HA工作要点8.2.2 HDFS-HA手动故障转移工作机制8.2.3 HDFS-HA自动故障转移工作机制8.3 HDFS-HA集群配置8.3.1 环境准备8.3.2 规划集群8.3.3 配置Zookee 阅读全文
posted @ 2019-02-24 10:22 黑泽君
摘要:第1章 Zookeeper入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景1.5 下载地址第2章 Zookeeper安装2.1 本地模式安装部署2.2 配置参数解读第3章 Zookeeper内部原理3.1 选举机制(面试重点)3.2 节点类型3.3 stat结构体3.4 监听器原理(面试 阅读全文
posted @ 2019-02-23 01:37 黑泽君
摘要:第6章 Hadoop企业优化(重中之重)6.1 MapReduce 跑的慢的原因6.2 MapReduce优化方法6.2.1 数据输入6.2.2 Map阶段6.2.3 Reduce阶段6.2.4 I/O传输6.2.5 数据倾斜问题6.2.6 常用的调优参数6.3 HDFS小文件优化方法6.3.1 H 阅读全文
posted @ 2019-02-20 23:02 黑泽君
摘要:3.3.4 WritableComparable排序3.3.5 WritableComparable排序案例实操(全排序)3.3.6 WritableComparable排序案例实操(区内排序)3.3.7 Combiner合并3.3.8 Combiner合并案例实操3.3.9 GroupingCom 阅读全文
posted @ 2019-02-17 18:24 黑泽君
摘要:第3章 MapReduce框架原理3.1 InputFormat数据输入3.1.1 切片与MapTask并行度决定机制3.1.2 Job提交流程源码和切片源码详解3.1.3 FileInputFormat切片机制3.1.4 CombineTextInputFormat切片机制3.1.5 Combin 阅读全文
posted @ 2019-02-15 23:29 黑泽君
摘要:第1章 MapReduce概述1.1 MapReduce定义1.2 MapReduce优缺点1.2.1 优点1.2.2 缺点1.3 MapReduce核心思想1.4 MapReduce进程1.5 官方WordCount源码1.6 常用数据序列化类型1.7 MapReduce编程规范1.8 WordC 阅读全文
posted @ 2019-02-15 23:16 黑泽君
摘要:第6章 DataNode(面试开发重点)6.1 DataNode工作机制6.2 数据完整性6.3 掉线时限参数设置6.4 服役新数据节点6.5 退役旧数据节点6.5.1 添加白名单6.5.2 黑名单退役6.6 Datanode多目录配置第7章 HDFS 2.X新特性7.1 集群间数据拷贝7.2 小文 阅读全文
posted @ 2019-02-09 17:14 黑泽君
摘要:第1章 HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点1.3 HDFS组成架构1.4 HDFS文件块大小(面试重点)第2章 HDFS的Shell操作(开发重点)第3章 HDFS客户端操作(开发重点)3.1 HDFS客户端环境准备3.2 HDFS的API操作3.2.1 HDFS文件上 阅读全文
posted @ 2019-02-05 22:48 黑泽君
摘要:第4章 Hadoop运行模式4.1 本地运行模式4.1.1 官方Grep案例4.1.2 官方WordCount案例4.2 伪分布式运行模式4.2.1 启动HDFS并运行MapReduce程序4.2.2 启动YARN并运行MapReduce程序4.2.3 配置历史服务器4.2.4 配置日志的聚集4.2 阅读全文
posted @ 2019-02-03 10:09 黑泽君
摘要:第1章 大数据概论1.1 大数据概念1.2 大数据特点(4V)1.3 大数据应用场景1.4 大数据发展前景1.5 大数据部门业务流程分析1.6 大数据部门组织结构(重点)第2章 从Hadoop框架讨论大数据生态2.1 Hadoop是什么2.2 Hadoop发展历史2.3 Hadoop三大发行版本2. 阅读全文
posted @ 2019-01-29 18:06 黑泽君