2022年4月7日

|NO.Z.00049|——————————|BigDataEnd|——|Hadoop&Flume.V12|——|Flume.v12|高级特性|拦截器|高可用|选择器.v04|

摘要: 一、Sink组逻辑处理器 ### Sink组逻辑处理器 ~~~ 可以把多个sink分成一个组, ~~~ Sink组逻辑处理器可以对这同一个组里的几个sink进行负载均衡 或者 ~~~ 其中一个sink发生故障后将输出Event的任务转移到其他的sink上。 ### N个sink将Event输出到对应 阅读全文

posted @ 2022-04-07 14:56 yanqi_vip 阅读(52) 评论(0) 推荐(0)

|NO.Z.00048|——————————|BigDataEnd|——|Hadoop&Flume.V11|——|Flume.v11|高级特性|拦截器|高可用|选择器.v03|

摘要: 一、选择器 ### 选择器 ~~~ source可以向多个channel同时写数据,所以也就产生了以何种方式向多个channel写的问题: ~~~ replication(复制,缺省)。数据完整地发送到每一个channel; ~~~ multiplexing(多路复用)。通过配置来按照一定的规则进行 阅读全文

posted @ 2022-04-07 14:55 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00046|——————————|BigDataEnd|——|Hadoop&Flume.V09|——|Flume.v09|高级特性|拦截器|高可用|选择器.v01|

摘要: 一、高级特性 ### [数据采集工具-Flume] ~~~ [Flume高级特性之拦截器] ~~~ [Flume高级特性之选择器,Sink组逻辑处理器] ~~~ [Flume高级特性之事务机制及可靠性] ~~~ [Flume高可用] ### 拦截器 ~~~ Flume支持在运行时对event进行修改 阅读全文

posted @ 2022-04-07 14:54 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00047|——————————|BigDataEnd|——|Hadoop&Flume.V10|——|Flume.v10|高级特性|拦截器|高可用|选择器.v02|

摘要: 一、Host添加拦截器 ### Host添加拦截器 ~~~ 这个拦截器会把当前Agent的 hostname 或者 IP 地址写入到Event的header中, ~~~ key默认是“host”(也可以通过配置自定义key),value可以选择使用hostname或者IP地址。 二、host添加拦截 阅读全文

posted @ 2022-04-07 14:54 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00045|——————————|BigDataEnd|——|Hadoop&Flume.V08|——|Flume.v08|Flume.v1.9案例.v06|

摘要: 一、监控日志文件采集数据到HDFS、本地文件系统 ### 监控日志文件采集数据到HDFS、本地文件系统 ~~~ # 业务需求: ~~~ 监控日志文件,收集信息上传到HDFS 和 本地文件系统 ### 需求分析: ~~~ 需要多个Agent级联实现 ~~~ source 选择 taildir ~~~ 阅读全文

posted @ 2022-04-07 14:53 yanqi_vip 阅读(47) 评论(0) 推荐(0)

|NO.Z.00042|——————————|BigDataEnd|——|Hadoop&Flume.V05|——|Flume.v05|Flume.v1.9案例.v03|

摘要: 一、入门案例 ### 中文flume帮助文档:https://flume.liyifeng.org/ ~~~ # 业务需求: ~~~ 监听本机 8888 端口,Flume将监听的数据实时显示在控制台 ### 需求分析: ~~~ 使用 telnet 工具可以向 8888 端口发送数据 ~~~ 监听端口 阅读全文

posted @ 2022-04-07 14:52 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00043|——————————|BigDataEnd|——|Hadoop&Flume.V06|——|Flume.v06|Flume.v1.9案例.v04|

摘要: 一、监控日志文件信息到HDFS ### 监控日志文件信息到HDFS ~~~ # 业务需求: ~~~ 监控本地日志文件,收集内容实时上传到HDFS ### 需求分析: ~~~ 使用 tail -F 命令即可找到本地日志文件产生的信息 ~~~ source 选择 exec。exec 监听一个指定的命令, 阅读全文

posted @ 2022-04-07 14:52 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&Flume.V07|——|Flume.v07|Flume.v1.9案例.v05|

摘要: 一、监控目录采集信息到HDFS ### 监控目录采集信息到HDFS ~~~ # 业务需求: ~~~ 监控指定目录,收集信息实时上传到HDFS ### 需求分析: ~~~ source 选择 spooldir。 ~~~ spooldir 能够保证数据不丢失,且能够实现断点续传,但延迟较高,不能实时监控 阅读全文

posted @ 2022-04-07 14:52 yanqi_vip 阅读(107) 评论(0) 推荐(0)

|NO.Z.00041|——————————|BigDataEnd|——|Hadoop&Flume.V04|——|Flume.v04|Flume.v1.9部署.v02|

摘要: 一、基础应用 ### 基础应用 ~~~ Flume 支持的数据源种类有很多,可以来自directory、http、kafka等。 ~~~ Flume提供了Source组件用来采集数据源。 二、常见的 Source 有: ### avro source: ~~~ 监听 Avro 端口来接收外部 avr 阅读全文

posted @ 2022-04-07 14:51 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00040|——————————|^^ 部署 ^^|——|Hadoop&Flume.V03|——|Flume.v03|Flume.v1.9部署.v01|

摘要: 一、安装部署 ### [数据采集工具-Flume] ~~~ [Flume.v1.9.0安装部署] ~~~ [Flume应用之Source/Channel及Sink] ~~~ [Flume应用案例01] ~~~ [Flume应用案例02] ~~~ [Flume应用案例03] ~~~ [Flume应用案 阅读全文

posted @ 2022-04-07 14:50 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00039|——————————|BigDataEnd|——|Hadoop&Flume.V02|——|Flume.v02|Flume架构.v02|

摘要: 一、Flume体系结构 ### Flume架构中的组件: ~~~ # Agent本质上是一个 JVM 进程, ~~~ 该JVM进程控制Event数据流从外部日志生产者那里传输到目的地(或者是下一个Agent)。 ~~~ 一个完整的Agent中包含了三个组件Source、Channel和Sink,So 阅读全文

posted @ 2022-04-07 14:50 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&Flume.V01|——|Flume.v01|Flume架构.v01|

摘要: 一、Flume概述 ### [数据采集工具-Flume] ~~~ [Flume简介] ~~~ [Flume拓扑结构] ~~~ [Flume体系架构] ~~~ [Flume内部原理] ### 概述(什么是、体系结构、拓扑结构、内部原理) ### 安装配置 ### 应用(基础、高级) ~~~ 无论数据来 阅读全文

posted @ 2022-04-07 14:49 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00036|——————————|BigDataEnd|——|Hadoop&Hue.V05|——|Hue.v05|案例实现.v02|

摘要: 一、实现:步骤一:创建表 ### 步骤一:创建表 ~~~ 将数据存放在ORC文件中 ~~~ # createtable.hql hive (tuning)> drop database sale cascade; hive (tuning)> create database if not exist 阅读全文

posted @ 2022-04-07 14:48 yanqi_vip 阅读(73) 评论(0) 推荐(0)

|NO.Z.00037|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-07 14:48 yanqi_vip 阅读(8) 评论(0) 推荐(0)

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&Hue.V04|——|Hue.v04|案例实现.v01|

摘要: 一、需求描述:针对销售数据,完成统计: ### [数据仓库工具-Hive] ~~~ [Hue案例之导入数据] ~~~ [Hive案例实现part01] ~~~ [Hive案例实现part02] ~~~ [Hive案例实现part03] ~~~ [Hive案例实现part04] ~~~ [Hive案例 阅读全文

posted @ 2022-04-07 14:47 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00034|——————————|^^ 部署 ^^|——|Hadoop&Hue.V03|——|Hue.v03|编译配置.v03|

摘要: 一、启动 Hue 服务 ### 增加 hue 用户和用户组 [root@linux122 hue]# groupadd hue [root@linux122 hue]# useradd -g hue hue ### 在hue安装路径下执行 [root@linux122 hue]# build/env 阅读全文

posted @ 2022-04-07 14:46 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00032|——————————|BigDataEnd|——|Hadoop&Hue.V01|——|Hue.v01|编译配置.v01|

摘要: 一、Hue概述 ### [数据交互工具-HUE] ~~~ [交互工具Hue_编译安装] ~~~ [交互工具Hue配置] ~~~ [交互工具Hue之整合Hadoop及Hive] ### Hue概述 ~~~ Hue(Hadoop User Experience)是一个开源的 Apache Hadoop 阅读全文

posted @ 2022-04-07 14:45 yanqi_vip 阅读(41) 评论(0) 推荐(0)

|NO.Z.00033|——————————|^^ 部署 ^^|——|Hadoop&Hue.V02|——|Hue.v02|编译配置.v02|

摘要: 一、Hue编译安装 ### Hue编译安装 ~~~ Hue官方网站:https://gethue.com/ ~~~ HUE官方用户手册:https://docs.gethue.com/ ~~~ 官方安装文档:https://docs.gethue.com/administrator/installa 阅读全文

posted @ 2022-04-07 14:45 yanqi_vip 阅读(68) 评论(0) 推荐(0)

|NO.Z.00031|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-07 14:44 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00030|——————————|BigDataEnd|——|Hadoop&Hive.V30|——|Hive.v30|Hive案例综合案例.v01|

摘要: 一、需求描述:针对销售数据,完成统计: ### 需求描述:针对销售数据,完成统计: ~~~ 按年统计销售额 ~~~ 销售金额在 10W 以上的订单 ~~~ 每年销售额的差值 ~~~ 年度订单金额前10位(年度、订单号、订单金额、排名) ~~~ 季度订单金额前10位(年度、季度、订单id、订单金额、排 阅读全文

posted @ 2022-04-07 14:43 yanqi_vip 阅读(93) 评论(0) 推荐(0)

|NO.Z.00027|——————————|BigDataEnd|——|Hadoop&Hive.V27|——|Hive.v27|Hive优化策略|实战.v03|

摘要: 一、SQL优化 ### SQL优化 ~~~ 列裁剪和分区裁剪 ~~~ 列裁剪是在查询时只读取需要的列;分区裁剪就是只读取需要的分区。 ~~~ 简单的说:select 中不要有多余的列,坚决避免 select * from tab; ### 查询分区表,不读多余的数据; select uid, eve 阅读全文

posted @ 2022-04-07 14:42 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00028|——————————|BigDataEnd|——|Hadoop&Hive.V28|——|Hive.v28|Hive优化策略|实战.v04|

摘要: 一、优化实战 ### 数据说明 ~~~ 学生信息表(student_txt)定义如下: ~~~ # 创建数据库 hive (default)> create database tuning; hive (default)> use tuning; ~~~ # 创建表 hive (tuning)> c 阅读全文

posted @ 2022-04-07 14:42 yanqi_vip 阅读(19) 评论(0) 推荐(0)

|NO.Z.00029|——————————|BigDataEnd|——|Hadoop&Hive.V29|——|Hive.v29|Hive优化策略|实战.v05|

摘要: 一、问题解答:问题1: ### 问题1:SQL执行过程中有多少个job(Stage) ~~~ 借助SQL的执行计划可以解答这个问题 hive (tuning)> explain insert overwrite table student_stat partition(tp) select s_ag 阅读全文

posted @ 2022-04-07 14:42 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00026|——————————|BigDataEnd|——|Hadoop&Hive.V26|——|Hive.v26|Hive优化策略|实战.v02|

摘要: 一、参数优化 ### 本地模式 ~~~ 当Hive处理的数据量较小时,启动分布式去处理数据会有点浪费, ~~~ 因为可能启动的时间比数据处理的时间还要长。 ~~~ Hive支持将作业动态地转为本地模式,需要使用下面的配置: SET hive.exec.mode.local.auto=true; -- 阅读全文

posted @ 2022-04-07 14:41 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00024|——————————|BigDataEnd|——|Hadoop&Hive.V24|——|Hive.v24|Hive存储机制之行列存储及TextFile.v02|

摘要: 一、文件存储格式对比测试 ### 说明: ~~~ 给 linux123 分配合适的资源。2core;2048G内存 ~~~ 适当减小文件的数据量(现有数据约800W,根据自己的实际选择处理100-300W条数据均可) ~~~ # 压缩的资源位置 [root@linux123 ~]# hdfs dfs 阅读全文

posted @ 2022-04-07 14:40 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00025|——————————|BigDataEnd|——|Hadoop&Hive.V25|——|Hive.v25|Hive优化策略|实战.v01|

摘要: 一、Hive调优策略 ~~~ [Hive优化策略之架构优化] ~~~ [Hive优化策略之本地模式,严格模式JVM重用] ~~~ [Hive优化策略之并行执行/推测执行/合并小文件及fetch模式] ~~~ [Hive优化策略之列分区裁剪/sortBy及groupBy] ~~~ [Hive优化策略之 阅读全文

posted @ 2022-04-07 14:40 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00023|——————————|BigDataEnd|——|Hadoop&Hive.V23|——|Hive.v23|Hive存储机制之行列存储及TextFile.v01|

摘要: 一、数据存储格式 ~~~ [Hive存储机制之行列存储及TextFile] ~~~ [Hive存储机制ORC] ~~~ [Hive存储机制之Parquet] ~~~ [Hive元数据之文件格式对比] ### 数据存储格式 ~~~ Hive支持的存储数的格式主要有:TEXTFILE(默认格式) ~~~ 阅读全文

posted @ 2022-04-07 14:39 yanqi_vip 阅读(63) 评论(0) 推荐(0)

|NO.Z.00022|——————————|^^ 配置 ^^|——|Hadoop&Hive.V22|——|Hive.v22|Hive元数据之metastore三种方式.v04|

摘要: 一、HCatalog ### HCatalog ~~~ # HCatalog 提供了一个统一的元数据服务, ~~~ 允许不同的工具如 Pig、MapReduce 等通过 HCatalog 直接访问存储在 HDFS 上的底层文件。 ~~~ HCatalog是用来访问Metastore的Hive子项目, 阅读全文

posted @ 2022-04-07 14:38 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00021|——————————|^^ 配置 ^^|——|Hadoop&Hive.V21|——|Hive.v21|Hive元数据之metastore三种方式.v03|

摘要: 一、HiveServer2 ### HiveServer2 ~~~ HiveServer2是一个服务端接口,使远程客户端可以执行对Hive的查询并返回结果。 ~~~ 目前基于Thrift RPC的实现是HiveServer的改进版本,并支持多客户端并发和身份验证, ~~~ 启动hiveServer2 阅读全文

posted @ 2022-04-07 14:37 yanqi_vip 阅读(63) 评论(0) 推荐(0)

|NO.Z.00020|——————————|^^ 配置 ^^|——|Hadoop&Hive.V20|——|Hive.v20|Hive元数据之metastore三种方式.v02|

摘要: 一、metastore内嵌模式配置 ### metastore内嵌模式配置流程 ~~~ 下载软件解压缩 ~~~ 设置环境变量,并使之生效 ~~~ 初始化数据库:schematool -dbType derby -initSchema ~~~ 进入hive命令行 ~~~ 再打开一个hive命令行,发现 阅读全文

posted @ 2022-04-07 14:37 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&Hive.V19|——|Hive.v19|Hive元数据之metastore三种方式.v01|

摘要: 一、元数据管理与存储 ~~~ [Hive元数据之metastore三种方式] ~~~ [Hive元数据之内嵌模式配置] ~~~ [Hive元数据之HiveServer2] ~~~ [Hive元数据之HCatalog] ### Metastore ~~~ 在Hive的具体使用中,首先面临的问题便是如何 阅读全文

posted @ 2022-04-07 14:37 yanqi_vip 阅读(63) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&Hive.V18|——|Hive.v18|Hive事务|

摘要: 一、HQL操作之--DML命令 ### HQL操作之--DML命令 ~~~ 数据操纵语言DML(Data Manipulation Language), ~~~ # DML主要有三种形式: ~~~ 插入(INSERT)、删除(DELETE)、更新(UPDATE)。 ~~~ 事务(transactio 阅读全文

posted @ 2022-04-07 14:36 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00016|——————————|BigDataEnd|——|Hadoop&Hive.V16|——|Hive.v16|Hive函数用法.v04|

摘要: 一、SQL面试题 ### 连续7天登录的用户 ~~~ # 数据。uid dt status(1 正常登录,0 异常) [root@linux123 ~]# vim /home/hadoop/data/ulogin.dat 1 2019-07-11 1 1 2019-07-12 1 1 2019-07 阅读全文

posted @ 2022-04-07 14:35 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&Hive.V17|——|Hive.v17|Hive函数用法.v05|

摘要: 一、自定义函数 ### 自定义函数 ~~~ 当 Hive 提供的内置函数无法满足实际的业务处理需要时,可以考虑使用用户自定义函数进行扩展。 ~~~ 用户自定义函数分为以下三类: ~~~ UDF(User Defined Function)。用户自定义函数,一进一出 ~~~ UDAF(User Def 阅读全文

posted @ 2022-04-07 14:35 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00014|——————————|BigDataEnd|——|Hadoop&Hive.V14|——|Hive.v14|Hive函数用法.v02|

摘要: 一、UDTF函数【重要】 ### UDTF函数【重要】 ~~~ # UDTF : ~~~ User Defined Table-Generating Functions。 ~~~ 用户定义表生成函数,一行输入,多行输出。 ### explode,炸裂函数 ~~~ 就是将一行中复杂的 array 或者 阅读全文

posted @ 2022-04-07 14:34 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00015|——————————|BigDataEnd|——|Hadoop&Hive.V15|——|Hive.v15|Hive函数用法.v03|

摘要: 一、窗口函数【重要】 ### 窗口函数 ~~~ 窗口函数又名开窗函数,属于分析函数的一种。 ~~~ 用于解决复杂报表统计需求的功能强大的函数,很多场景都需要用到。 ~~~ 窗口函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是: ~~~ 对于每个组返回多行,而聚合函数对于每个组只返回一行。 ~ 阅读全文

posted @ 2022-04-07 14:34 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00013|——————————|BigDataEnd|——|Hadoop&Hive.V13|——|Hive.v13|Hive函数用法.v01|

摘要: 一、系统内置函数 ~~~ [Hive函数之日期函数] ~~~ [Hive函数字符串函数及数学函数] ~~~ [Hive函数条件函数] ~~~ [Hive函数explode用法] ~~~ [Hive函数explode案例] ~~~ [Hive函数之窗口函数] ~~~ [Hive函数之windows子句 阅读全文

posted @ 2022-04-07 14:33 yanqi_vip 阅读(42) 评论(0) 推荐(0)

|NO.Z.00012|——————————|BigDataEnd|——|Hadoop&Hive.V12|——|Hive.v12|Hive_DQL之查询.v02|

摘要: 一、group by子句 ### group by子句 ~~~ GROUP BY语句通常与聚组函数一起使用, ~~~ 按照一个或多个列对数据进行分组,对每个组进行聚合操作。 ~~~ # 计算emp表每个部门的平均工资 hive (mydb)> select deptno, avg(sal) from 阅读全文

posted @ 2022-04-07 14:32 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&Hive.V11|——|Hive.v11|Hive_DQL之查询.v01|

摘要: 一、HQL操作之--DQL命令【重点】 ~~~ [Hive_DQL之简单查询] ~~~ [Hive_DQL之where子句] ~~~ [Hive_DQL之grouply子句] ~~~ [Hive_DQL之表连接] ~~~ [Hive_DQL之order by] ~~~ [Hive_DQL之sort 阅读全文

posted @ 2022-04-07 14:31 yanqi_vip 阅读(50) 评论(0) 推荐(0)

|NO.Z.00009|——————————|BigDataEnd|——|Hadoop&Hive.V09|——|Hive.v09|Hive_DDL数据库操作.v03|

摘要: 一、分区表 ### 分区表 ~~~ Hive在执行查询时,一般会扫描整个表的数据。由于表的数据量大,全表扫描消耗时间长、效率低。 ~~~ 而有时候,查询只需要扫描表中的一部分数据即可,Hive引入了分区表的概念, ~~~ 将表的数据存储在不同的子目录中,每一个子目录对应一个分区。 ~~~ 只查询部分 阅读全文

posted @ 2022-04-07 14:31 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00010|——————————|BigDataEnd|——|Hadoop&Hive.V10|——|Hive.v10|Hive数据库操作|load命令|

摘要: 一、 数据导入 ~~~ [Hive数据库操作之load命令] ~~~ [Hive数据库操作之Insert命令] ~~~ [Hive数据库操作之数据导出] ### 装载数据(Load):基本语法: LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO 阅读全文

posted @ 2022-04-07 14:31 yanqi_vip 阅读(69) 评论(0) 推荐(0)

|NO.Z.00008|——————————|BigDataEnd|——|Hadoop&Hive.V08|——|Hive.v08|Hive_DDL数据库操作.v02|

摘要: 一、内部表 & 外部表 ### 在创建表的时候,可指定表的类型。 ~~~ 表有两种类型,分别是内部表(管理表)、外部表。 ~~~ 默认情况下,创建内部表。如果要创建外部表,需要使用关键字 external ~~~ 在删除内部表时,表的定义(元数据) 和 数据 同时被删除 ~~~ 在删除外部表时,仅删 阅读全文

posted @ 2022-04-07 14:30 yanqi_vip 阅读(64) 评论(0) 推荐(0)

|NO.Z.00007|——————————|BigDataEnd|——|Hadoop&Hive.V07|——|Hive.v07|Hive_DDL数据库操作.v01|

摘要: 一、HQL操作之 -- DDL命令 ~~~ [Hive_DDL数据库操作] ~~~ [Hive_DDL之建表语法] ~~~ [Hive_DDL之内部表和外部表] ~~~ [Hive_DDL之分区表] ~~~ [Hive_DDL之分桶表] ~~~ [Hive_DDL之修改表及删除表] ### HQL操 阅读全文

posted @ 2022-04-07 14:29 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00005|——————————|^^ 部署 ^^|——|Hadoop&Hive.V05|——|Hive.v05|Hive部署配置.v02|

摘要: 一、Hive安装 ### 安装步骤: ~~~ 下载、上传、解压缩 ~~~ 修改环境变量 ~~~ 修改hive配置 ~~~ 拷贝JDBC的驱动程序 ~~~ 初始化元数据库 ### 下载Hive软件,并解压缩 [root@linux123 software]# pwd /opt/yanqi/softwa 阅读全文

posted @ 2022-04-07 14:28 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00006|——————————|BigDataEnd|——|Hadoop&Hive.V06|——|Hive.v06|Hive数据类型转换|

摘要: 一、数据类型与文件格式 ~~~ [Hive数据类型之基本数据类型及转换] ~~~ [Hive数据类型之集合数据类型] ~~~ [Hive文本文件数据编码及读时模式] ### 数据类型与文件格式 ~~~ Hive支持关系型数据库的绝大多数基本数据类型,同时也支持4种集合数据类型。 ### 基本数据类型 阅读全文

posted @ 2022-04-07 14:28 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00003|——————————|BigDataEnd|——|Hadoop&Hive.V03|——|Hive.v03|课程大纲|数据仓库工具Hive|产生背景|

摘要: 一、Hive概述 ~~~ [课程内容介绍及数据仓库工具Hive的产生背景] ~~~ [数仓工具Hive与RDBMS对比] ~~~ [数仓工具Hive的优缺点] ~~~ [数仓工具Hive的架构原理] ### Hive概述 ~~~ HDFS => 海量数据的存储 ~~~ MapReduce => 海量 阅读全文

posted @ 2022-04-07 14:27 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00004|——————————|^^ 部署 ^^|——|Hadoop&Hive.V04|——|Hive.v04|Hive部署配置.v01|

摘要: 一、Hive安装配置 ~~~ [安装mysql数据库] ~~~ [Hive的安装与配置] ~~~ [Hive安装的注意事项] ~~~ [Hive参数配置和命令] ### 环境准备 ~~~ Hive官网:http://hive.apache.org ~~~ 下载网址:http://archive.ap 阅读全文

posted @ 2022-04-07 14:27 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00002|——————————|^^ 报错 ^^|——|Hadoop&Hive.V02|——|Hive.v02|sqoop创建job报错|缺省java-json.jar包|password文件格式错误|

摘要: 附录一:报错处理一: ~~~ [sqoop创建job缺省java-json.jar]——NoClassDefFoundError: org/json/JSONObject ~~~ [sqoop创建job的password文件格式错误]——java.sql.SQLException ### 报错现象: 阅读全文

posted @ 2022-04-07 14:26 yanqi_vip 阅读(73) 评论(0) 推荐(0)

|NO.Z.00001|——————————|^^ 部署 ^^|——|Hadoop&Hive.V01|——|Hive.v01|linux升级Python|python2.7.25~2.7.15|

摘要: 一、centos7.x自带的Python版本为2.7.5 ### 查看Python版本 [root@linux122 ~]# python --version Python 2.7.5 二、升级Python版本 ### 下载并升级Python ~~~ # 下载最新版本的python包: [root@ 阅读全文

posted @ 2022-04-07 14:25 yanqi_vip 阅读(44) 评论(0) 推荐(0)

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-07 14:25 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00064|——————————|^^ 部署 ^^|——|Hadoop&MapReduce.V35|——|Hadoop.v35||Hadoop二次开发环境|搭建示例|

摘要: 一、Hadoop二次开发环境搭建 ### 系统环境 ~~~ 系统:linux122: CentOS-7_x86_64 protobuf: protoc-2.5.0 maven: maven-3.6.0 hadoop: hadoop-2.9.2 java: jdk1.8.0_231 cmake: cm 阅读全文

posted @ 2022-04-07 14:24 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00065|——————————|BigDataEnd|——————————————————————————————————————

摘要: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life 阅读全文

posted @ 2022-04-07 14:24 yanqi_vip 阅读(9) 评论(0) 推荐(0)

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-07 14:24 yanqi_vip 阅读(9) 评论(0) 推荐(0)

|NO.Z.00063|——————————|BigDataEnd|——|Hadoop&MapReduce.V34|——|Hadoop.v34|NamenodeFullGC-FullGC的影响|日志分析|

摘要: 一、Namenode Full GC ~~~ [NamenodeFullGC-FullGC的影响] ~~~ [NamenodeFullGC-FullGC的日志分析] 二、JVM堆内存 ### JVM堆内存 ~~~ JVM内存划分为堆内存和非堆内存,堆内存分为年轻代(Young Generation) 阅读全文

posted @ 2022-04-07 14:23 yanqi_vip 阅读(129) 评论(0) 推荐(0)

|NO.Z.00060|——————————|BigDataEnd|——|Hadoop&MapReduce.V31|——|Hadoop.v31|调优及二次开发|MR调优-shuffle调优|

摘要: 一、Shuffle调优 ~~~ [MR调优-shuffle调优-Map端调优] ~~~ [MR调优-shuffle调优-Combiner] ~~~ [MR调优-shuffle调优-Reduce端调优] ### Shuffle调优 ~~~ Shuffle阶段是MapReduce性能的关键部分, ~~~ 阅读全文

posted @ 2022-04-07 14:22 yanqi_vip 阅读(47) 评论(0) 推荐(0)

|NO.Z.00061|——————————|BigDataEnd|——|Hadoop&MapReduce.V32|——|Hadoop.v32|MR调优-shuffle调优|小文件优化|数据倾斜|

摘要: 一、Job调优 ~~~ [MR调优-shuffle调优-推测执行-小文件优化] ~~~ [MR调优-shuffle调优-数据倾斜] ### 推测执行 ~~~ 集群规模很大时(几百上千台节点的集群),个别机器出现软硬件故障的概率就变大了, ~~~ 并且会因此延长整个任务的执行时间推测执行通过将一个ta 阅读全文

posted @ 2022-04-07 14:22 yanqi_vip 阅读(44) 评论(0) 推荐(0)

|NO.Z.00062|——————————|BigDataEnd|——|Hadoop&MapReduce.V33|——|Hadoop.v33|调优及二次开发|YARN调优|

摘要: 一、YARN调优 ### NM配置 ~~~ 可用内存 ~~~ 刨除分配给操作系统、其他服务的内存外,剩余的资源应尽量分配给YARN。 ~~~ 默认情况下,Map或Reduce container会使用1个虚拟CPU内核和1024MB内存, ~~~ ApplicationMaster使用1536MB内 阅读全文

posted @ 2022-04-07 14:22 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00059|——————————|BigDataEnd|——|Hadoop&MapReduce.V30|——|Hadoop.v30|调优及二次开发|MR调优-Job执行的三原则|

摘要: 一、[MR调优-Job执行的三原则]: ### Job执行三原则 ~~~ 充分利用集群资源 ~~~ reduce阶段尽量放在一轮 ~~~ 每个task的执行时间要合理 ### 原则一 充分利用集群资源 ~~~ Job运行时,尽量让所有的节点都有任务处理,这样能尽量保证集群资源被充分利用, ~~~ 任 阅读全文

posted @ 2022-04-07 14:21 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00058|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-07 14:20 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00057|——————————|BigDataEnd|——|Hadoop&MapReduce.V29|——|Hadoop.v29|Hadoop3.x新特性|

摘要: 一、扩展Hadoop3.x新特性概述 ### Hadoop3.x ~~~ Hadoop3.x中增强了很多特性,在Hadoop3.x中,不再允许使用jdk1.7, ~~~ 要求jdk1.8以上版本。这是因为Hadoop 2.0是基于JDK 1.7开发的, ~~~ 而JDK 1.7在2015年4月已停止 阅读全文

posted @ 2022-04-07 14:19 yanqi_vip 阅读(42) 评论(0) 推荐(0)

|NO.Z.00056|——————————|BigDataEnd|——|Hadoop&MapReduce.V28|——|Hadoop.v28|源码剖析|NameNode如何支持高并发访问|双缓冲机制|

摘要: 一、源码剖析之NameNode如何支持高并发访问:双缓冲机制:NameNode如何支撑高并发访问(双缓冲机制) ### 高并发访问NameNode会遇到什么样的问题: ~~~ 经过学习HDFS的元数据管理机制, ~~~ Client每次请求NameNode修改一条元数据(比如说申请上传一个文件, ~ 阅读全文

posted @ 2022-04-07 14:19 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00054|——————————|BigDataEnd|——|Hadoop&MapReduce.V26|——|Hadoop.v26|源码剖析|NameNode启动流程|

摘要: 一、[源码剖析之NameNode启动流程]:Apache Hadoop 核心源码剖析 ### 下载Apache Hadoop-2.9.2官方源码:https://hadoop.apache.org/releases.html ——> Source Deownload:源码 ——> Binary do 阅读全文

posted @ 2022-04-07 14:18 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00055|——————————|BigDataEnd|——|Hadoop&MapReduce.V27|——|Hadoop.v27|源码剖析|DataNode启动流程|

摘要: 一、[源码剖析之DataNode启动流程] :DataNode 启动流程 ### datanode的Main Class是DataNode,先找到DataNode.main() public class DataNode extends ReconfigurableBase implements I 阅读全文

posted @ 2022-04-07 14:18 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00053|——————————|BigDataEnd|——|Hadoop&MapReduce.V25|——|Hadoop.v25|Yarn资源调度|多租户|资源隔离配置|

摘要: 一、[Yarn资源调度之多租户的资源隔离配置] ### Yarn多租户资源隔离配置 ~~~ Yarn集群资源设置为A,B两个队列, ~~~ A队列设置占用资源70%主要用来运行常规的定时任务, ~~~ B队列设置占用资源30%主要运行临时任务, ~~~ 两个队列间可相互资源共享,假如A队列资源占满, 阅读全文

posted @ 2022-04-07 14:17 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00052|——————————|BigDataEnd|——|Hadoop&MapReduce.V24|——|Hadoop.v24|Yarn资源调度|架构原理|工作机制|调度策略|

摘要: 一、[Yarn资源调度之架构原理/工作机制及调度策略]:Yarn架构 ### Yarn架构 ~~~ ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度; ~~~ NodeManager(nm):单个节点上的 阅读全文

posted @ 2022-04-07 14:16 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00051|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-07 14:16 yanqi_vip 阅读(17) 评论(0) 推荐(0)

|NO.Z.00050|——————————|BigDataEnd|——|Hadoop&MapReduce.V23|——|Hadoop.v23|MR算法扩展|MergeSort归并排序|QuickSort快速排序|

摘要: 一、[MR算法扩展之MergeSort归并排序][MR算法扩展之QuickSort快速排序]:Mergesort归并排序 二、合并 三、合并细节 ### 不断地将当前序列平均分割成 2个子序列 ~~~ 直到不能再分割(序列中只剩 1个元素) ### 不断地将 2个子序列合并成一个有序序列 ~~~ 直 阅读全文

posted @ 2022-04-07 14:15 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00048|——————————|BigDataEnd|——|Hadoop&MapReduce.V21|——|Hadoop.v21|MapReduce综合案例.v02|

摘要: 一、分区排序多目录输出 ### Mapper package com.yanqi.mr.comment.step2; import org.apache.commons.lang3.StringUtils; import org.apache.hadoop.io.BytesWritable; imp 阅读全文

posted @ 2022-04-07 14:14 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00049|——————————|BigDataEnd|——|Hadoop&MapReduce.V22|——|Hadoop.v22|MapReduce综合案例.v03|

摘要: 一、程序调优 ### 预合并CombineMapper package com.yanqi.mr.comment.step3; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; im 阅读全文

posted @ 2022-04-07 14:14 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00047|——————————|BigDataEnd|——|Hadoop&MapReduce.V20|——|Hadoop.v20|MapReduce综合案例.v01|

摘要: 一、MapReduce综合案例:MR综合案例 ### 需求 ~~~ 现在有一些订单的评论数据,需求,将订单按照好评与差评区分开来, ~~~ 将数据输出到不同的文件目录下,数据内容如下,其中数据第九个字段表示好评, ~~~ 中评,差评。0:好评,1:中评,2:差评。 ~~~ 现需要根据好评,中评,差评 阅读全文

posted @ 2022-04-07 14:13 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00046|——————————|BigDataEnd|——|Hadoop&MapReduce.V19|——|Hadoop.v19|MapReduce数据压缩机制|

摘要: 一、shuffle阶段数据的压缩机制 ### Hadoop当中支持的额压缩算法 ~~~ 数据压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输!! ~~~ 我们可以使用bin/hadoop checknative 来查看我们编译之后的hadoop支持的各种压缩, ~~~ 如果出现openss 阅读全文

posted @ 2022-04-07 14:13 yanqi_vip 阅读(43) 评论(0) 推荐(0)

|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&MapReduce.V17|——|Hadoop.v17|InputFormat机制|自定义InputFormat|

摘要: 一、[InputFormat机制之自定义InputFormat] ### 自定义InputFormat ~~~ HDFS还是MapReduce,在处理小文件时效率都非常低,但又难免面临处理大量小文件的场景, ~~~ 此时,就需要有相应解决方案。可以自定义InputFormat实现小文件的合并。 ## 阅读全文

posted @ 2022-04-07 14:12 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00045|——————————|BigDataEnd|——|Hadoop&MapReduce.V18|——|Hadoop.v18|InputFormat机制|自定义outputFormat|

摘要: 一、[InputFormat机制之自定义outputFormat]:OutputFormat ### OutputFormat ~~~ OutputFormat:是MapReduce输出数据的基类, ~~~ 所有MapReduce的数据输出都实现了OutputFormat抽象类。 ~~~ 下面我们介 阅读全文

posted @ 2022-04-07 14:12 yanqi_vip 阅读(10) 评论(0) 推荐(0)

|NO.Z.00043|——————————|BigDataEnd|——|Hadoop&MapReduce.V16|——|Hadoop.v16|InputFormat机制|combineInputFormation|

摘要: 一、MapReduce读取和输出数据:InputFormat ### InputFormat ~~~ 运行MapReduce程序时,输入的文件格式包括:基于行的日志文件、二进制格式文件、 ~~~ 数据库表等。那么,针对不同的数据类型,MapReduce是如何读取这些数据的呢? ### InputFo 阅读全文

posted @ 2022-04-07 14:11 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00041|——————————|BigDataEnd|——|Hadoop&MapReduce.V14|——|Hadoop.v14|MR map端join|

摘要: 一、MR reduce端Join分析: ### MR reduce端Join分析: ~~~ [Map端join_实现分析] ~~~ [Map端join_代码实现] ~~~ [Map端join_程序验证] ~~~ # 缺点: ~~~ 这种方式中,join的操作是在reduce阶段完成,reduce端的 阅读全文

posted @ 2022-04-07 14:10 yanqi_vip 阅读(48) 评论(0) 推荐(0)

|NO.Z.00042|——————————|BigDataEnd|——|Hadoop&MapReduce.V15|——|Hadoop.v15|数据倾斜解决方案|

摘要: 一、数据倾斜解决方案 ### 什么是数据倾斜? ~~~ 数据倾斜无非就是大量的相同key被partition分配到一个分区里, ### 现象 ~~~ 绝大多数task执行得都非常快,但个别task执行的极慢。甚至失败! ### 通用解决方案: ~~~ 对key增加随机数。 二、编程代码:创建项目:s 阅读全文

posted @ 2022-04-07 14:10 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00039|——————————|BigDataEnd|——|Hadoop&MapReduce.V12|——|Hadoop.v12|shuffle机制详解之GroupingComparator分组|

摘要: 一、分区排序(默认的分区规则,区内有序) ~~~ 分区排序(默认的分区规则,区内有序) ~~~ [shuffle机制详解之GroupingComparator分组] ### GroupingComparator ~~~ GroupingComparator是mapreduce当中reduce端的一个 阅读全文

posted @ 2022-04-07 14:09 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00040|——————————|BigDataEnd|——|Hadoop&MapReduce.V13|——|Hadoop.v13|MR reduce端join|

摘要: 一、MR reduce端join ### MR reduce端join ~~~ [Reduce端Join需求分析] ~~~ [Reduce端Join-Mapper&Bean对象] ~~~ [Reduce端Join-Reducer&Driver实现] ~~~ [Reduce端Join-程序验证] ## 阅读全文

posted @ 2022-04-07 14:09 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&MapReduce.V10|——|Hadoop.v10|MapReduce原理剖析之自定义分区案例|

摘要: 一、[MapReduce原理剖析之自定义分区案例]:MapReduce中的Combiner:combiner运行机制: ### MapReduce中的Combiner:combiner运行机制: ~~~ Combiner是MR程序中Mapper和Reducer之外的一种组件 ~~~ Combiner 阅读全文

posted @ 2022-04-07 14:08 yanqi_vip 阅读(43) 评论(0) 推荐(0)

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&MapReduce.V11|——|Hadoop.v11|Shutffle机制详解之全排序|分区排序|

摘要: 一、[Shutffle机制详解之全排序|分区排序]:MapReduce中的排序 ### 排序是MapReduce框架中最重要的操作之一。 ~~~ MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。 ~~~ 任何应用程序中的数据均会被排序,而不管逻辑. 阅读全文

posted @ 2022-04-07 14:08 yanqi_vip 阅读(55) 评论(0) 推荐(0)

|NO.Z.00036|——————————|BigDataEnd|——|Hadoop&MapReduce.V09|——|Hadoop.v09|MapReduce原理剖析之自定义分区及ReduceTask数|自定义分区案例.v02|

摘要: 一、编程实现步骤 ### 创建项目:partition ### Mapper package com.yanqi.mr.partition; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; imp 阅读全文

posted @ 2022-04-07 14:07 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00034|——————————|BigDataEnd|——|Hadoop&MapReduce.V07|——|Hadoop.v07|MapReduce原理剖析之切片机制源码解读|ReduceTask工作机制|

摘要: 一、切片机制源码阅读 ~~~ [MapReduce原理剖析之切片机制源码解读] ~~~ [MapReduce原理剖析之ReduceTask工作机制] ### MapTask并行度是不是越多越好呢? ~~~ 默认就是128M; ~~~ 答案不是,如果一个文件仅仅比128M大一点点也被当成一个split 阅读全文

posted @ 2022-04-07 14:06 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&MapReduce.V08|——|Hadoop.v08|MapReduce原理剖析之自定义分区及ReduceTask数|自定义分区案例.v01|

摘要: 一、MapReduce原理剖析之自定义分区及ReduceTask数量 ### MapReduce原理剖析之自定义分区及ReduceTask数量 ~~~ [MapReduce原理剖析之自定义分区及ReduceTask数量] ~~~ [MapReduce原理剖析之自定义分区案例] ### MapRedu 阅读全文

posted @ 2022-04-07 14:06 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00033|——————————|BigDataEnd|——|Hadoop&MapReduce.V06|——|Hadoop.v06|MapReduce原理分析之MapTask运行机制|并行度|

摘要: 一、MapTask运行机制详解:MapTask流程 ### MapReduce原理分析 ~~~ [MapReduce原理分析之MapTask运行机制] ~~~ [MapReduce原理分析之MapTask并行度] ### 详细步骤: ~~~ 首先,读取数据组件InputFormat(默认TextIn 阅读全文

posted @ 2022-04-07 14:05 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00032|——————————|BigDataEnd|——|Hadoop&MapReduce.V05|——|Hadoop.v05|MapRedice之writable序列化接口|

摘要: 一、序列化Writable接口 ~~~ [MapRedice之writable序列化接口] ~~~ [MapRedice之writable序列化接口案例part01] ~~~ [MapRedice之writable序列化接口案例part02] ~~~ [MapRedice之writable序列化接口 阅读全文

posted @ 2022-04-07 14:04 yanqi_vip 阅读(46) 评论(0) 推荐(0)

|NO.Z.00031|——————————|BigDataEnd|——|Hadoop&MapReduce.V04|——|Hadoop.v04|WordCount案例之编写本地YARN运行.v02|

摘要: 一、运行任务 ### 本地模式 ~~~ 直接运行会报错:因为没有设置传参 ~~~ 直接Idea中运行驱动类即可:idea运行需要传入参数: ~~~ IDEA.Driver传参:WORDCOUNTDRIVER——>edit configuration ~~~ 在program arguments设置参 阅读全文

posted @ 2022-04-07 14:03 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00029|——————————|BigDataEnd|——|Hadoop&MapReduce.V02|——|Hadoop.v02|MapReduce编程规范|

摘要: 一、MapReduce编程规范及示例编写 ### Mapper类 ~~~ 用户自定义一个Mapper类继承Hadoop的Mapper类 ~~~ Mapper的输入数据是KV对的形式(类型可以自定义) ~~~ Map阶段的业务逻辑定义在map()方法中 ~~~ Mapper的输出数据是KV对的形式(类 阅读全文

posted @ 2022-04-07 14:02 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00030|——————————|BigDataEnd|——|Hadoop&MapReduce.V03|——|Hadoop.v03|WordCount案例之编写本地YARN运行.v01|

摘要: 一、WordCount代码实现 ~~~ [WordCount案例之编写Mapper类] ~~~ [WordCount案例之Reducer类] ~~~ [WordCount案例之Driver类] ~~~ [WordCount案例之本地验证] ~~~ [WordCount案例之运行YARN集群] ### 阅读全文

posted @ 2022-04-07 14:02 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00028|——————————|BigDataEnd|——|Hadoop&MapReduce.V01|——|Hadoop.v01|MapReduce编程思想|案例解析|

摘要: 一、MapReduce编程框架 ### MapReduce思想 ~~~ MapReduce思想在生活中处处可见。我们或多或少都曾接触过这种思想。 ~~~ MapReduce的思想核心是分而治之, ~~~ 充分利用了并行处理的优势。 ~~~ 即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而 阅读全文

posted @ 2022-04-07 14:01 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00027|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-07 14:00 yanqi_vip 阅读(17) 评论(0) 推荐(0)

|NO.Z.00025|——————————|BigDataEnd|——|Hadoop&HDFS.V10|——|Hadoop.v10|Hadoop的限额/归档及集群安全模式|

摘要: 一、Hadoop的限额与归档以及集群安全模式 ### 高级命令 ~~~ HDFS文件限额配置 ~~~ HDFS文件的限额配置允许我们以文件大小或者文件个数来限制 ~~~ 我们在某个目录下上传的文件数量或者文件内容总量, ~~~ 以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量 ## 阅读全文

posted @ 2022-04-07 13:59 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00026|——————————|BigDataEnd|——|Hadoop&HDFS.V11|——|Hadoop.v11|日志采集案例|

摘要: 一、日志采集综合案例 ### 日志采集综合案例 ~~~ [日志采集案例之需求分析] ~~~ [日志采集案例之调度功能实现] ~~~ [日志采集案例之调度功能实现] ~~~ [日志采集之采集上传功能实现] ~~~ [日志采集案例之验证及调优] ### 需求分析 ~~~ 定时采集已滚动完毕日志文件 ~~ 阅读全文

posted @ 2022-04-07 13:59 yanqi_vip 阅读(19) 评论(0) 推荐(0)

|NO.Z.00024|——————————|BigDataEnd|——|Hadoop&HDFS.V09|——|Hadoop.v09|HDFS元数据管理机制|NN和2NN.v02|

摘要: 一、Fsimage文件内容 ### 官方地址: https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/HdfsImageViewer.html ### 查看oiv和oev命令 [root@linux121 curr 阅读全文

posted @ 2022-04-07 13:58 yanqi_vip 阅读(51) 评论(0) 推荐(0)

|NO.Z.00022|——————————|BigDataEnd|——|Hadoop&HDFS.V07|——|Hadoop.v07|HDFS读写解析|

摘要: 一、HDFS读写解析:HDFS读数据流程 ### HDFS读数据流程 ~~~ 客户端通过Distributed FileSystem向NameNode请求下载文件, ~~~ NameNode通过查询元数据,找到文件块所在的DataNode地址。 ~~~ 挑选一台DataNode(就近原则,然后随机) 阅读全文

posted @ 2022-04-07 13:57 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00023|——————————|BigDataEnd|——|Hadoop&HDFS.V08|——|Hadoop.v08|HDFS元数据管理机制|NN和2NN.v01|

摘要: 一、HDFS元数据管理机制 ### [HDFS分布式文件系统] ~~~ [HDFS元数据管理机制Namenode、Fsimage及Edits编辑日志] ~~~ [HDFS元数据管理机制之2NN及checkpoint机制] ~~~ [HDFS元数据管理机制之Fsimage及Edits文件解析] ~~~ 阅读全文

posted @ 2022-04-07 13:57 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00021|——————————|BigDataEnd|——|Hadoop&HDFS.V06|——|Hadoop.v06|HDFS|IO流操作|文件上传下载|seek读取.v02|

摘要: 一、编程代码:使用IO流操作 ### 上传文件 package com.yanqi.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.f 阅读全文

posted @ 2022-04-07 13:56 yanqi_vip 阅读(11) 评论(0) 推荐(0)

|NO.Z.00020|——————————|BigDataEnd|——|Hadoop&HDFS.V05|——|Hadoop.v05|HDFS|IO流操作|文件上传下载|seek读取.v01|

摘要: 一、[HDFS之API客户端IO流操作]——[文件上传下载]——[seek读取] ### I/O流操作HDFS ~~~ 以上我们使用的API操作都是HDFS系统框架封装好的。 ~~~ 我们自己也可以采用IO流的方式实现文件的上传和下载。 二、文件上传 ### 文件上传 ~~~ 需求:把本地e盘上的y 阅读全文

posted @ 2022-04-07 13:55 yanqi_vip 阅读(55) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&HDFS.V04|——|Hadoop.v04|HDFS文件上传下载|文件类型判断|

摘要: 一、上传文件 ### 上传文件 ~~~ [HDFS之API客户端上传下载文件] ~~~ [HDFS之API客户端文件详情及文件类型判断] ~~~ [HDFS分布式文件系统] ### 编写源代码 @Test public void testCopyFromLocalFile() throws IOEx 阅读全文

posted @ 2022-04-07 13:54 yanqi_vip 阅读(10) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&HDFS.V03|——|Hadoop.v03|HDFS之API客户端|解决文件|权限问题|

摘要: 一、[HDFS之API客户端解决文件权限问题] ### JAVA客户端:客户端环境准备 ~~~ 将Hadoop-2.9.2安装包解压到非中文路径(例如:E:\hadoop-2.9.2)。 ~~~ 配置HADOOP_HOME环境变量 ~~~ 配置Path环境变量。 ~~~ 在IDEA下创建一个Mave 阅读全文

posted @ 2022-04-07 13:53 yanqi_vip 阅读(50) 评论(0) 推荐(0)

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&HDFS.V02|——|Hadoop.v02|HDFS之shell命令行客户端|

摘要: 一、HDFS之shell命令行客户端:Shell命令行操作HDFS ### 基本语法 ~~~ bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 ### 命令大全 [root@linux121 hadoop-2.9.2]# bin/hdfs dfs Usage: hado 阅读全文

posted @ 2022-04-07 13:52 yanqi_vip 阅读(33) 评论(0) 推荐(0)

导航