yanqi_vip - 博客园

|NO.Z.00056|——————————|BigDataEnd|——|Hadoop&Sqoop.V04|——|Sqoop.v04|增量数据导入|

摘要：一、增量数据导入 ### 变化数据捕获(CDC) ~~~ 前面都是执行的全量数据导入。如果数据量很小，则采取完全源数据抽取；如果源数据量很大， ~~~ 则需要抽取发生变化的数据，这种数据抽取模式叫做变化数据捕获，简称CDC(Change Data Capture)。 ### CDC大体分为两种： ~ 阅读全文

posted @ 2022-04-08 14:57 yanqi_vip 阅读(43) 评论(0) 推荐(0)

|NO.Z.00057|——————————|BigDataEnd|——|Hadoop&Sqoop.V05|——|Sqoop.v05|执行Job|

摘要：一、执行 job ### 执行数据增量导入有两种实现方式： ~~~ 每次手工配置last-value，手工调度 ~~~ 使用job，给定初始last-value，定时任务每天定时调度很明显方式2更简便。 ### 创建口令文件 [root@linux123 ~]# echo -n "12345678" 阅读全文

posted @ 2022-04-08 14:57 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00053|——————————|^^ 部署 ^^|——|Hadoop&Sqoop.V01|——|Sqoop.v01|安装配置|

摘要：一、Sqoop概述 ### [数据迁移工具-Sqoop] ~~~ [sqoop概述原理及安装部署] ~~~ [sqoop应用案例之导入全部数据] ~~~ [Sqoop应用案例之后查询指定列及where使用] ~~~ [sqoop应用案例之多Mapper导入及hive表导入] ~~~ [sqoop应用阅读全文

posted @ 2022-04-08 14:56 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00054|——————————|BigDataEnd|——|Hadoop&Sqoop.V02|——|Sqoop.v02|MySQL导入到HDFS|

摘要：一、应用案例 ### 在Sqoop中 ~~~ # 导入是指： ~~~ 从关系型数据库向大数据集群（HDFS、HIVE、HBASE）传输数据；使用import关键字； ~~~ # 导出是指： ~~~ 从大数据集群向关系型数据库传输数据；使用export关键字； ### 测试数据脚本 ~~~ 以阅读全文

posted @ 2022-04-08 14:56 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00051|——————————|BigDataEnd|——|Hadoop&Flume.V14|——|Flume.v14|高级特性|拦截器|高可用|选择器.v06|

摘要：一、高可用案例：案例：实现Agent的故障转移 ### 配置环境在linux121、linux122上部署Flume、修改环境变量 ~~~ # 在liunx123上执行 [root@linux123 ~]# cd /opt/yanqi/servers/ [root@linux123 servers] 阅读全文

posted @ 2022-04-08 14:55 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00052|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-08 14:55 yanqi_vip 阅读(8) 评论(0) 推荐(0)

|NO.Z.00050|——————————|BigDataEnd|——|Hadoop&Flume.V13|——|Flume.v13|高级特性|拦截器|高可用|选择器.v05|

摘要：一、事务机制与可靠性 ### 事务机制与可靠性 ~~~ 一提到事务，首先就想到的是关系型数据库中的事务， ~~~ 事务一个典型的特征就是将一批操作做成原子性的，要么都成功，要么都失败。 ### 在Flume中一共有两个事务： ~~~ Put事务。在Source到Channel之间 ~~~ Take事阅读全文

posted @ 2022-04-08 14:54 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00049|——————————|BigDataEnd|——|Hadoop&Flume.V12|——|Flume.v12|高级特性|拦截器|高可用|选择器.v04|

摘要：一、Sink组逻辑处理器 ### Sink组逻辑处理器 ~~~ 可以把多个sink分成一个组， ~~~ Sink组逻辑处理器可以对这同一个组里的几个sink进行负载均衡或者 ~~~ 其中一个sink发生故障后将输出Event的任务转移到其他的sink上。 ### N个sink将Event输出到对应阅读全文

posted @ 2022-04-07 14:56 yanqi_vip 阅读(52) 评论(0) 推荐(0)

|NO.Z.00048|——————————|BigDataEnd|——|Hadoop&Flume.V11|——|Flume.v11|高级特性|拦截器|高可用|选择器.v03|

摘要：一、选择器 ### 选择器 ~~~ source可以向多个channel同时写数据，所以也就产生了以何种方式向多个channel写的问题： ~~~ replication(复制，缺省)。数据完整地发送到每一个channel； ~~~ multiplexing（多路复用）。通过配置来按照一定的规则进行阅读全文

posted @ 2022-04-07 14:55 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00046|——————————|BigDataEnd|——|Hadoop&Flume.V09|——|Flume.v09|高级特性|拦截器|高可用|选择器.v01|

摘要：一、高级特性 ### [数据采集工具-Flume] ~~~ [Flume高级特性之拦截器] ~~~ [Flume高级特性之选择器，Sink组逻辑处理器] ~~~ [Flume高级特性之事务机制及可靠性] ~~~ [Flume高可用] ### 拦截器 ~~~ Flume支持在运行时对event进行修改阅读全文

posted @ 2022-04-07 14:54 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00047|——————————|BigDataEnd|——|Hadoop&Flume.V10|——|Flume.v10|高级特性|拦截器|高可用|选择器.v02|

摘要：一、Host添加拦截器 ### Host添加拦截器 ~~~ 这个拦截器会把当前Agent的 hostname 或者 IP 地址写入到Event的header中， ~~~ key默认是“host”（也可以通过配置自定义key），value可以选择使用hostname或者IP地址。二、host添加拦截阅读全文

posted @ 2022-04-07 14:54 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00045|——————————|BigDataEnd|——|Hadoop&Flume.V08|——|Flume.v08|Flume.v1.9案例.v06|

摘要：一、监控日志文件采集数据到HDFS、本地文件系统 ### 监控日志文件采集数据到HDFS、本地文件系统 ~~~ # 业务需求： ~~~ 监控日志文件，收集信息上传到HDFS 和本地文件系统 ### 需求分析： ~~~ 需要多个Agent级联实现 ~~~ source 选择 taildir ~~~ 阅读全文

posted @ 2022-04-07 14:53 yanqi_vip 阅读(47) 评论(0) 推荐(0)

|NO.Z.00042|——————————|BigDataEnd|——|Hadoop&Flume.V05|——|Flume.v05|Flume.v1.9案例.v03|

摘要：一、入门案例 ### 中文flume帮助文档：https://flume.liyifeng.org/ ~~~ # 业务需求： ~~~ 监听本机 8888 端口，Flume将监听的数据实时显示在控制台 ### 需求分析： ~~~ 使用 telnet 工具可以向 8888 端口发送数据 ~~~ 监听端口阅读全文

posted @ 2022-04-07 14:52 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00043|——————————|BigDataEnd|——|Hadoop&Flume.V06|——|Flume.v06|Flume.v1.9案例.v04|

摘要：一、监控日志文件信息到HDFS ### 监控日志文件信息到HDFS ~~~ # 业务需求： ~~~ 监控本地日志文件，收集内容实时上传到HDFS ### 需求分析： ~~~ 使用 tail -F 命令即可找到本地日志文件产生的信息 ~~~ source 选择 exec。exec 监听一个指定的命令，阅读全文

posted @ 2022-04-07 14:52 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&Flume.V07|——|Flume.v07|Flume.v1.9案例.v05|

摘要：一、监控目录采集信息到HDFS ### 监控目录采集信息到HDFS ~~~ # 业务需求： ~~~ 监控指定目录，收集信息实时上传到HDFS ### 需求分析： ~~~ source 选择 spooldir。 ~~~ spooldir 能够保证数据不丢失，且能够实现断点续传，但延迟较高，不能实时监控阅读全文

posted @ 2022-04-07 14:52 yanqi_vip 阅读(107) 评论(0) 推荐(0)

|NO.Z.00041|——————————|BigDataEnd|——|Hadoop&Flume.V04|——|Flume.v04|Flume.v1.9部署.v02|

摘要：一、基础应用 ### 基础应用 ~~~ Flume 支持的数据源种类有很多，可以来自directory、http、kafka等。 ~~~ Flume提供了Source组件用来采集数据源。二、常见的 Source 有： ### avro source： ~~~ 监听 Avro 端口来接收外部 avr 阅读全文

posted @ 2022-04-07 14:51 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00040|——————————|^^ 部署 ^^|——|Hadoop&Flume.V03|——|Flume.v03|Flume.v1.9部署.v01|

摘要：一、安装部署 ### [数据采集工具-Flume] ~~~ [Flume.v1.9.0安装部署] ~~~ [Flume应用之Source/Channel及Sink] ~~~ [Flume应用案例01] ~~~ [Flume应用案例02] ~~~ [Flume应用案例03] ~~~ [Flume应用案阅读全文

posted @ 2022-04-07 14:50 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00039|——————————|BigDataEnd|——|Hadoop&Flume.V02|——|Flume.v02|Flume架构.v02|

摘要：一、Flume体系结构 ### Flume架构中的组件： ~~~ # Agent本质上是一个 JVM 进程， ~~~ 该JVM进程控制Event数据流从外部日志生产者那里传输到目的地（或者是下一个Agent）。 ~~~ 一个完整的Agent中包含了三个组件Source、Channel和Sink，So 阅读全文

posted @ 2022-04-07 14:50 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&Flume.V01|——|Flume.v01|Flume架构.v01|

摘要：一、Flume概述 ### [数据采集工具-Flume] ~~~ [Flume简介] ~~~ [Flume拓扑结构] ~~~ [Flume体系架构] ~~~ [Flume内部原理] ### 概述(什么是、体系结构、拓扑结构、内部原理) ### 安装配置 ### 应用(基础、高级) ~~~ 无论数据来阅读全文

posted @ 2022-04-07 14:49 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00036|——————————|BigDataEnd|——|Hadoop&Hue.V05|——|Hue.v05|案例实现.v02|

摘要：一、实现：步骤一：创建表 ### 步骤一：创建表 ~~~ 将数据存放在ORC文件中 ~~~ # createtable.hql hive (tuning)> drop database sale cascade; hive (tuning)> create database if not exist 阅读全文

posted @ 2022-04-07 14:48 yanqi_vip 阅读(73) 评论(0) 推荐(0)

|NO.Z.00037|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-07 14:48 yanqi_vip 阅读(8) 评论(0) 推荐(0)

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&Hue.V04|——|Hue.v04|案例实现.v01|

摘要：一、需求描述：针对销售数据，完成统计： ### [数据仓库工具-Hive] ~~~ [Hue案例之导入数据] ~~~ [Hive案例实现part01] ~~~ [Hive案例实现part02] ~~~ [Hive案例实现part03] ~~~ [Hive案例实现part04] ~~~ [Hive案例阅读全文

posted @ 2022-04-07 14:47 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00034|——————————|^^ 部署 ^^|——|Hadoop&Hue.V03|——|Hue.v03|编译配置.v03|

摘要：一、启动 Hue 服务 ### 增加 hue 用户和用户组 [root@linux122 hue]# groupadd hue [root@linux122 hue]# useradd -g hue hue ### 在hue安装路径下执行 [root@linux122 hue]# build/env 阅读全文

posted @ 2022-04-07 14:46 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00032|——————————|BigDataEnd|——|Hadoop&Hue.V01|——|Hue.v01|编译配置.v01|

摘要：一、Hue概述 ### [数据交互工具-HUE] ~~~ [交互工具Hue_编译安装] ~~~ [交互工具Hue配置] ~~~ [交互工具Hue之整合Hadoop及Hive] ### Hue概述 ~~~ Hue(Hadoop User Experience)是一个开源的 Apache Hadoop 阅读全文

posted @ 2022-04-07 14:45 yanqi_vip 阅读(41) 评论(0) 推荐(0)

|NO.Z.00033|——————————|^^ 部署 ^^|——|Hadoop&Hue.V02|——|Hue.v02|编译配置.v02|

摘要：一、Hue编译安装 ### Hue编译安装 ~~~ Hue官方网站：https://gethue.com/ ~~~ HUE官方用户手册：https://docs.gethue.com/ ~~~ 官方安装文档：https://docs.gethue.com/administrator/installa 阅读全文

posted @ 2022-04-07 14:45 yanqi_vip 阅读(68) 评论(0) 推荐(0)

|NO.Z.00031|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-07 14:44 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00030|——————————|BigDataEnd|——|Hadoop&Hive.V30|——|Hive.v30|Hive案例综合案例.v01|

摘要：一、需求描述：针对销售数据，完成统计： ### 需求描述：针对销售数据，完成统计： ~~~ 按年统计销售额 ~~~ 销售金额在 10W 以上的订单 ~~~ 每年销售额的差值 ~~~ 年度订单金额前10位（年度、订单号、订单金额、排名） ~~~ 季度订单金额前10位（年度、季度、订单id、订单金额、排阅读全文

posted @ 2022-04-07 14:43 yanqi_vip 阅读(93) 评论(0) 推荐(0)

|NO.Z.00028|——————————|BigDataEnd|——|Hadoop&Hive.V28|——|Hive.v28|Hive优化策略|实战.v04|

摘要：一、优化实战 ### 数据说明 ~~~ 学生信息表（student_txt）定义如下： ~~~ # 创建数据库 hive (default)> create database tuning; hive (default)> use tuning; ~~~ # 创建表 hive (tuning)> c 阅读全文

posted @ 2022-04-07 14:42 yanqi_vip 阅读(19) 评论(0) 推荐(0)

|NO.Z.00029|——————————|BigDataEnd|——|Hadoop&Hive.V29|——|Hive.v29|Hive优化策略|实战.v05|

摘要：一、问题解答：问题1： ### 问题1：SQL执行过程中有多少个job（Stage） ~~~ 借助SQL的执行计划可以解答这个问题 hive (tuning)> explain insert overwrite table student_stat partition(tp) select s_ag 阅读全文

posted @ 2022-04-07 14:42 yanqi_vip 阅读(24) 评论(0) 推荐(0)

|NO.Z.00027|——————————|BigDataEnd|——|Hadoop&Hive.V27|——|Hive.v27|Hive优化策略|实战.v03|

摘要：一、SQL优化 ### SQL优化 ~~~ 列裁剪和分区裁剪 ~~~ 列裁剪是在查询时只读取需要的列；分区裁剪就是只读取需要的分区。 ~~~ 简单的说：select 中不要有多余的列，坚决避免 select * from tab; ### 查询分区表，不读多余的数据； select uid, eve 阅读全文

posted @ 2022-04-07 14:42 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00026|——————————|BigDataEnd|——|Hadoop&Hive.V26|——|Hive.v26|Hive优化策略|实战.v02|

摘要：一、参数优化 ### 本地模式 ~~~ 当Hive处理的数据量较小时，启动分布式去处理数据会有点浪费， ~~~ 因为可能启动的时间比数据处理的时间还要长。 ~~~ Hive支持将作业动态地转为本地模式，需要使用下面的配置： SET hive.exec.mode.local.auto=true; -- 阅读全文

posted @ 2022-04-07 14:41 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00025|——————————|BigDataEnd|——|Hadoop&Hive.V25|——|Hive.v25|Hive优化策略|实战.v01|

摘要：一、Hive调优策略 ~~~ [Hive优化策略之架构优化] ~~~ [Hive优化策略之本地模式，严格模式JVM重用] ~~~ [Hive优化策略之并行执行/推测执行/合并小文件及fetch模式] ~~~ [Hive优化策略之列分区裁剪/sortBy及groupBy] ~~~ [Hive优化策略之阅读全文

posted @ 2022-04-07 14:40 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00024|——————————|BigDataEnd|——|Hadoop&Hive.V24|——|Hive.v24|Hive存储机制之行列存储及TextFile.v02|

摘要：一、文件存储格式对比测试 ### 说明： ~~~ 给 linux123 分配合适的资源。2core；2048G内存 ~~~ 适当减小文件的数据量（现有数据约800W，根据自己的实际选择处理100-300W条数据均可） ~~~ # 压缩的资源位置 [root@linux123 ~]# hdfs dfs 阅读全文

posted @ 2022-04-07 14:40 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00023|——————————|BigDataEnd|——|Hadoop&Hive.V23|——|Hive.v23|Hive存储机制之行列存储及TextFile.v01|

摘要：一、数据存储格式 ~~~ [Hive存储机制之行列存储及TextFile] ~~~ [Hive存储机制ORC] ~~~ [Hive存储机制之Parquet] ~~~ [Hive元数据之文件格式对比] ### 数据存储格式 ~~~ Hive支持的存储数的格式主要有：TEXTFILE（默认格式） ~~~ 阅读全文

posted @ 2022-04-07 14:39 yanqi_vip 阅读(63) 评论(0) 推荐(0)

|NO.Z.00022|——————————|^^ 配置 ^^|——|Hadoop&Hive.V22|——|Hive.v22|Hive元数据之metastore三种方式.v04|

摘要：一、HCatalog ### HCatalog ~~~ # HCatalog 提供了一个统一的元数据服务， ~~~ 允许不同的工具如 Pig、MapReduce 等通过 HCatalog 直接访问存储在 HDFS 上的底层文件。 ~~~ HCatalog是用来访问Metastore的Hive子项目，阅读全文

posted @ 2022-04-07 14:38 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00021|——————————|^^ 配置 ^^|——|Hadoop&Hive.V21|——|Hive.v21|Hive元数据之metastore三种方式.v03|

摘要：一、HiveServer2 ### HiveServer2 ~~~ HiveServer2是一个服务端接口，使远程客户端可以执行对Hive的查询并返回结果。 ~~~ 目前基于Thrift RPC的实现是HiveServer的改进版本，并支持多客户端并发和身份验证， ~~~ 启动hiveServer2 阅读全文

posted @ 2022-04-07 14:37 yanqi_vip 阅读(63) 评论(0) 推荐(0)

|NO.Z.00020|——————————|^^ 配置 ^^|——|Hadoop&Hive.V20|——|Hive.v20|Hive元数据之metastore三种方式.v02|

摘要：一、metastore内嵌模式配置 ### metastore内嵌模式配置流程 ~~~ 下载软件解压缩 ~~~ 设置环境变量，并使之生效 ~~~ 初始化数据库：schematool -dbType derby -initSchema ~~~ 进入hive命令行 ~~~ 再打开一个hive命令行，发现阅读全文

posted @ 2022-04-07 14:37 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&Hive.V19|——|Hive.v19|Hive元数据之metastore三种方式.v01|

摘要：一、元数据管理与存储 ~~~ [Hive元数据之metastore三种方式] ~~~ [Hive元数据之内嵌模式配置] ~~~ [Hive元数据之HiveServer2] ~~~ [Hive元数据之HCatalog] ### Metastore ~~~ 在Hive的具体使用中，首先面临的问题便是如何阅读全文

posted @ 2022-04-07 14:37 yanqi_vip 阅读(63) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&Hive.V18|——|Hive.v18|Hive事务|

摘要：一、HQL操作之--DML命令 ### HQL操作之--DML命令 ~~~ 数据操纵语言DML(Data Manipulation Language)， ~~~ # DML主要有三种形式： ~~~ 插入(INSERT)、删除(DELETE)、更新(UPDATE)。 ~~~ 事务(transactio 阅读全文

posted @ 2022-04-07 14:36 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00016|——————————|BigDataEnd|——|Hadoop&Hive.V16|——|Hive.v16|Hive函数用法.v04|

摘要：一、SQL面试题 ### 连续7天登录的用户 ~~~ # 数据。uid dt status(1 正常登录，0 异常) [root@linux123 ~]# vim /home/hadoop/data/ulogin.dat 1 2019-07-11 1 1 2019-07-12 1 1 2019-07 阅读全文

posted @ 2022-04-07 14:35 yanqi_vip 阅读(40) 评论(0) 推荐(0)

导航

公告