随笔分类 -  20-Hadoop

该文被密码保护。
posted @ 2019-03-18 15:14 黑泽君
摘要:一、通用优化1.1、NameNode 的元数据备份使用 SSD1.2、定时备份 NameNode 上的元数据1.3、为 NameNode 指定多个元数据目录1.4、设置 dfs.namenode.name.dir.restore 为 true1.5、NameNode 节点必须配置为 Raid1(镜像 阅读全文
posted @ 2019-03-18 11:49 黑泽君
摘要:一、NTP 配置时间服务器1.1、检查当前系统时区1.2、同步时间1.3、检查软件包1.4、修改 ntp 配置文件1.5、重启 ntp 服务1.6、设置定时同步任务二、Linux 集群服务群起脚本2.1、介绍2.2、编写脚本三、CentOS6.8 升级到 python 到 2.73.1、环境准备3. 阅读全文
posted @ 2019-03-17 09:20 黑泽君
摘要:第1章 Oozie 的简介第2章 Oozie 的功能模块介绍2.1 模块2.2 常用节点第3章 Oozie 的部署3.1 部署 Hadoop(CDH版本的)3.1.1 解压缩 CDH 版本的 hadoop3.1.2 修改 CDH 版本的 Hadoop 配置3.1.3 格式化 CDH 版的 Hadoo 阅读全文
posted @ 2019-03-12 18:57 黑泽君
摘要:一 概述1.1 为什么需要工作流调度系统1.2 常见工作流调度系统1.3 各种调度工具特性对比1.4 Azkaban 与 Oozie 对比二 Azkaban(阿兹卡班) 介绍三 Azkaban 安装部署3.1 安装前准备3.2 安装 azkaban3.2 创建 SSL 配置3.3 时间同步配置3.4 阅读全文
posted @ 2019-03-10 19:06 黑泽君
摘要:第1章 Sqoop 简介第2章 Sqoop 原理第3章 Sqoop 安装3.1 下载并解压3.2 修改配置文件3.3 拷贝 JDBC 驱动3.4 验证 Sqoop3.5 测试 Sqoop 是否能够成功连接数据库第4章 Sqoop 的简单使用案例4.1 导入数据4.1.1 从 RDBMS 到 HDFS 阅读全文
posted @ 2019-03-10 14:22 黑泽君
摘要:HBase 构建 Scanner 体系图解 阅读全文
posted @ 2019-03-10 10:23 黑泽君
该文被密码保护。
posted @ 2019-03-09 23:33 黑泽君
该文被密码保护。
posted @ 2019-03-08 15:06 黑泽君
该文被密码保护。
posted @ 2019-03-06 18:26 黑泽君
摘要:HBase默认配置文件注释解析: hbase-default.xml 阅读全文
posted @ 2019-03-06 17:35 黑泽君
摘要:第1章 Kafka概述1.1 消息队列1.2 为什么需要消息队列1.3 什么是Kafka1.4 Kafka架构第2章 Kafka集群部署2.1 环境准备2.1.1 集群规划2.1.2 jar包下载2.2 Kafka集群部署2.3 Kafka命令行操作第3章 Kafka工作流程分析3.1 Kafka 阅读全文
posted @ 2019-03-06 00:00 黑泽君
摘要:第1章 Flume概述1.1 Flume定义1.2 Flume组成架构1.2.1 Agent1.2.2 Source1.2.3 Channel1.2.4 Sink1.2.5 Event1.3 Flume拓扑结构1.4 Flume Agent内部原理1.5 Hadoop三大发行版本第2章 Flume快 阅读全文
posted @ 2019-03-04 15:43 黑泽君
摘要:一、知识梳理1.1、背景表结构1.1.1、order by1.1.2、sort by1.1.3、distribute by1.1.4、cluster by1.2、行转列、列转行(UDAF 与 UDTF)1.2.1、行转列1.2.2、列转行1.3、建表时的数组操作1.4、orc 存储1.5、Hive 阅读全文
posted @ 2019-03-03 00:16 黑泽君
摘要:第10章 Hive实战之谷粒影音10.1 需求描述10.2 项目10.2.1 数据结构10.2.2 ETL原始数据10.3 准备工作10.3.1 创建表10.3.2 导入ETL后的数据到原始表10.3.3 向ORC表插入数据10.4 业务分析10.4.1 统计视频观看数Top1010.4.2 统计视 阅读全文
posted @ 2019-03-02 14:44 黑泽君
摘要:第8章 压缩和存储(Hive高级)8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩编码8.2.2 压缩参数配置8.3 开启Map输出阶段压缩8.4 开启Reduce输出阶段压缩8.5 阅读全文
posted @ 2019-02-28 19:40 黑泽君
摘要:第6章 查询6.1 基本查询(select … from)6.1.1 全表和特定列查询6.1.2 列别名6.1.3 算术运算符6.1.4 常用函数(聚合函数)6.1.5 limit语句6.2 where语句6.2.1 比较运算符(between/in/is null)6.2.2 like和rlike 阅读全文
posted @ 2019-02-27 18:19 黑泽君
摘要:第4章 DDL数据定义4.1 创建数据库4.2 查询数据库4.2.1 显示数据库4.2.2 查看数据库详情4.3.3 切换当前数据库4.3 修改数据库4.4 删除数据库4.5 创建表4.5.1 管理表(内部表)4.5.2 外部表4.5.3 管理表与外部表的互相转换4.6 分区表4.6.1 分区表基本 阅读全文
posted @ 2019-02-25 21:30 黑泽君
摘要:第1章 Hive入门1.1 什么是Hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和数据库比较1.4.1 查询语言1.4.2 数据存储位置1.4.3 数据更新1.4.4 索引1.4.5 执行1.4.6 执行延迟1.4.7 可扩展性1.4.8 数 阅读全文
posted @ 2019-02-25 00:28 黑泽君