21-大数据 - 随笔分类(第4页) - 黑泽君

该文被密码保护。

posted @ 2019-03-06 18:26 黑泽君

摘要：HBase默认配置文件注释解析： hbase-default.xml 阅读全文

posted @ 2019-03-06 17:35 黑泽君

大数据技术之_10_Kafka学习_Kafka概述+Kafka集群部署+Kafka工作流程分析+Kafka API实战+Kafka Producer拦截器+Kafka Streams

摘要：第1章 Kafka概述1.1 消息队列1.2 为什么需要消息队列1.3 什么是Kafka1.4 Kafka架构第2章 Kafka集群部署2.1 环境准备2.1.1 集群规划2.1.2 jar包下载2.2 Kafka集群部署2.3 Kafka命令行操作第3章 Kafka工作流程分析3.1 Kafka 阅读全文

posted @ 2019-03-06 00:00 黑泽君

大数据技术之_09_Flume学习_Flume概述+Flume快速入门+Flume企业开发案例+Flume监控之Ganglia+Flume高级之自定义MySQLSource+Flume企业真实面试题（重点）

摘要：第1章 Flume概述1.1 Flume定义1.2 Flume组成架构1.2.1 Agent1.2.2 Source1.2.3 Channel1.2.4 Sink1.2.5 Event1.3 Flume拓扑结构1.4 Flume Agent内部原理1.5 Hadoop三大发行版本第2章 Flume快阅读全文

posted @ 2019-03-04 15:43 黑泽君

大数据技术之_08_Hive学习_复习与总结

摘要：一、知识梳理1.1、背景表结构1.1.1、order by1.1.2、sort by1.1.3、distribute by1.1.4、cluster by1.2、行转列、列转行（UDAF 与 UDTF）1.2.1、行转列1.2.2、列转行1.3、建表时的数组操作1.4、orc 存储1.5、Hive 阅读全文

posted @ 2019-03-03 00:16 黑泽君

大数据技术之_08_Hive学习_05_Hive实战之谷粒影音（ETL+TopN）+常见错误及解决方案

摘要：第10章 Hive实战之谷粒影音10.1 需求描述10.2 项目10.2.1 数据结构10.2.2 ETL原始数据10.3 准备工作10.3.1 创建表10.3.2 导入ETL后的数据到原始表10.3.3 向ORC表插入数据10.4 业务分析10.4.1 统计视频观看数Top1010.4.2 统计视阅读全文

posted @ 2019-03-02 14:44 黑泽君

大数据技术之_08_Hive学习_04_压缩和存储（Hive高级）+ 企业级调优（Hive优化）

摘要：第8章压缩和存储（Hive高级）8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩编码8.2.2 压缩参数配置8.3 开启Map输出阶段压缩8.4 开启Reduce输出阶段压缩8.5 阅读全文

posted @ 2019-02-28 19:40 黑泽君

大数据技术之_08_Hive学习_03_查询+函数

摘要：第6章查询6.1 基本查询（select … from）6.1.1 全表和特定列查询6.1.2 列别名6.1.3 算术运算符6.1.4 常用函数（聚合函数）6.1.5 limit语句6.2 where语句6.2.1 比较运算符（between/in/is null）6.2.2 like和rlike 阅读全文

posted @ 2019-02-27 18:19 黑泽君

大数据技术之_08_Hive学习_02_DDL数据定义(创建/查询/修改/删除数据库+创建表+分区表+修改表+删除表)+DML数据操作(数据导入+数据导出+清除表中数据)

摘要：第4章 DDL数据定义4.1 创建数据库4.2 查询数据库4.2.1 显示数据库4.2.2 查看数据库详情4.3.3 切换当前数据库4.3 修改数据库4.4 删除数据库4.5 创建表4.5.1 管理表（内部表）4.5.2 外部表4.5.3 管理表与外部表的互相转换4.6 分区表4.6.1 分区表基本阅读全文

posted @ 2019-02-25 21:30 黑泽君

大数据技术之_08_Hive学习_01_Hive入门+Hive安装、配置和使用+Hive数据类型

摘要：第1章 Hive入门1.1 什么是Hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和数据库比较1.4.1 查询语言1.4.2 数据存储位置1.4.3 数据更新1.4.4 索引1.4.5 执行1.4.6 执行延迟1.4.7 可扩展性1.4.8 数阅读全文

posted @ 2019-02-25 00:28 黑泽君

大数据技术之_07_Hadoop学习_HDFS_HA(高可用)_HA概述+HDFS-HA工作机制+HDFS-HA集群配置+YARN-HA配置+HDFS Federation(联邦) 架构设计

摘要：第8章 HDFS HA 高可用8.1 HA概述8.2 HDFS-HA工作机制8.2.1 HDFS-HA工作要点8.2.2 HDFS-HA手动故障转移工作机制8.2.3 HDFS-HA自动故障转移工作机制8.3 HDFS-HA集群配置8.3.1 环境准备8.3.2 规划集群8.3.3 配置Zookee 阅读全文

posted @ 2019-02-24 10:22 黑泽君

大数据技术之_06_Zookeeper学习_Zookeeper入门+Zookeeper安装+Zookeeper内部原理+Zookeeper实战（开发重点）+企业面试真题

摘要：第1章 Zookeeper入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景1.5 下载地址第2章 Zookeeper安装2.1 本地模式安装部署2.2 配置参数解读第3章 Zookeeper内部原理3.1 选举机制（面试重点）3.2 节点类型3.3 stat结构体3.4 监听器原理（面试阅读全文

posted @ 2019-02-23 01:37 黑泽君

大数据技术之_05_Hadoop学习_04_MapReduce_Hadoop企业优化(重中之重)+HDFS小文件优化方法+MapReduce扩展案例+倒排索引案例(多job串联)+TopN案例+找博客共同粉丝案例+常见错误及解决方案

摘要：第6章 Hadoop企业优化（重中之重）6.1 MapReduce 跑的慢的原因6.2 MapReduce优化方法6.2.1 数据输入6.2.2 Map阶段6.2.3 Reduce阶段6.2.4 I/O传输6.2.5 数据倾斜问题6.2.6 常用的调优参数6.3 HDFS小文件优化方法6.3.1 H 阅读全文

posted @ 2019-02-20 23:02 黑泽君

大数据技术之_05_Hadoop学习_03_MapReduce_MapTask工作机制+ReduceTask工作机制+OutputFormat数据输出+Join多种应用+计数器应用+数据清洗(ETL)+Hadoop数据压缩+Yarn资源调度器

摘要：3.3.4 WritableComparable排序3.3.5 WritableComparable排序案例实操（全排序）3.3.6 WritableComparable排序案例实操（区内排序）3.3.7 Combiner合并3.3.8 Combiner合并案例实操3.3.9 GroupingCom 阅读全文

posted @ 2019-02-17 18:24 黑泽君

大数据技术之_05_Hadoop学习_02_MapReduce_MapReduce框架原理+InputFormat数据输入+MapReduce工作流程(面试重点)+Shuffle机制(面试重点)

摘要：第3章 MapReduce框架原理3.1 InputFormat数据输入3.1.1 切片与MapTask并行度决定机制3.1.2 Job提交流程源码和切片源码详解3.1.3 FileInputFormat切片机制3.1.4 CombineTextInputFormat切片机制3.1.5 Combin 阅读全文

posted @ 2019-02-15 23:29 黑泽君

大数据技术之_05_Hadoop学习_01_MapReduce_MapReduce概述+Hadoop序列化

摘要：第1章 MapReduce概述1.1 MapReduce定义1.2 MapReduce优缺点1.2.1 优点1.2.2 缺点1.3 MapReduce核心思想1.4 MapReduce进程1.5 官方WordCount源码1.6 常用数据序列化类型1.7 MapReduce编程规范1.8 WordC 阅读全文

posted @ 2019-02-15 23:16 黑泽君

大数据技术之_04_Hadoop学习_02_HDFS_DataNode(面试开发重点)+HDFS 2.X新特性

摘要：第6章 DataNode（面试开发重点）6.1 DataNode工作机制6.2 数据完整性6.3 掉线时限参数设置6.4 服役新数据节点6.5 退役旧数据节点6.5.1 添加白名单6.5.2 黑名单退役6.6 Datanode多目录配置第7章 HDFS 2.X新特性7.1 集群间数据拷贝7.2 小文阅读全文

posted @ 2019-02-09 17:14 黑泽君

大数据技术之_04_Hadoop学习_01_HDFS_HDFS概述+HDFS的Shell操作(开发重点)+HDFS客户端操作(开发重点)+HDFS的数据流(面试重点)+NameNode和SecondaryNameNode(面试开发重点)

摘要：第1章 HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点1.3 HDFS组成架构1.4 HDFS文件块大小（面试重点）第2章 HDFS的Shell操作（开发重点）第3章 HDFS客户端操作（开发重点）3.1 HDFS客户端环境准备3.2 HDFS的API操作3.2.1 HDFS文件上阅读全文

posted @ 2019-02-05 22:48 黑泽君

大数据技术之_03_Hadoop学习_02_入门_Hadoop运行模式+【本地运行模式+伪分布式运行模式+完全分布式运行模式(开发重点)】+Hadoop编译源码(面试重点)+常见错误及解决方案

摘要：第4章 Hadoop运行模式4.1 本地运行模式4.1.1 官方Grep案例4.1.2 官方WordCount案例4.2 伪分布式运行模式4.2.1 启动HDFS并运行MapReduce程序4.2.2 启动YARN并运行MapReduce程序4.2.3 配置历史服务器4.2.4 配置日志的聚集4.2 阅读全文

posted @ 2019-02-03 10:09 黑泽君

大数据技术之_03_Hadoop学习_01_入门_大数据概论+从Hadoop框架讨论大数据生态+Hadoop运行环境搭建（开发重点）

摘要：第1章大数据概论1.1 大数据概念1.2 大数据特点（4V）1.3 大数据应用场景1.4 大数据发展前景1.5 大数据部门业务流程分析1.6 大数据部门组织结构（重点）第2章从Hadoop框架讨论大数据生态2.1 Hadoop是什么2.2 Hadoop发展历史2.3 Hadoop三大发行版本2. 阅读全文

posted @ 2019-01-29 18:06 黑泽君

Bruce

随笔分类 - 21-大数据