摘要: 动态分区与半自动分区要求: ①默认hive是不允许动态分区的,需要设置set hive.exec.dynamic.partition.mode=nonstrict ②分区列必须位于查询的最后一个字段 ③select字段的个数要<=表的字段个数+1 静态分区: insert overwrite 表名 阅读全文
posted @ 2020-04-07 00:14 七寸青衫 阅读(424) 评论(0) 推荐(0)
摘要: 一、数仓为什么要分层? 1、分层解耦,可以让开发思路更加清晰,复杂问题简单化(出错时,可以精确定位数据) 2、节省重复开发 3、脱敏 二、数仓的分层 以5层数仓为例 ODS层:原始数据层,原始数据原封不动的直接导入! DWD层:基于ODS层,将原始数据进行清洗,筛选后的数据,把其中的明细打开 例如: 阅读全文
posted @ 2020-04-04 16:42 七寸青衫 阅读(1138) 评论(0) 推荐(0)
摘要: 一、数据同步策略的类型包括:全量表,增量表,新增及变化表 1、全量表:存储完整的数据 2、增量表:存储新增加的数据 3、新增及变化表:存储新增加的数据和变化的数据 4、特殊表:只需要存储一次的数据 二、全量同步策略 全量同步策略: 每日全量,就是每天存储一份完整的数据,作为一个分区 适用于表中数据量 阅读全文
posted @ 2020-04-04 16:29 七寸青衫 阅读(933) 评论(0) 推荐(0)
摘要: top 查看内存 具体解释:看大佬的https://blog.csdn.net/yjclsx/article/details/81508455 通过对应的pid查找对应的进程 找啊找啊 找不到 咋办呐。。 找到了。。。 没有任务在进行,但是占用还是很高 释放一下内存吧 有改善,只是稍微好一点点。。 阅读全文
posted @ 2020-04-01 01:01 七寸青衫 阅读(132) 评论(0) 推荐(0)
摘要: 一、cut:从文件的每一行剪切字节,字符,字段并将这些输出 基本用法: cut [选项参数] filename 选项参数 功能 -f 列号,提取第几列 -d 分隔符,按照指定分隔符分割列 -c 指定具体的字符 二、sed:流编辑器,一次处理一行内容,处理时,吧当前处理的行存储在临时缓冲区,称为“模式 阅读全文
posted @ 2020-03-30 21:32 七寸青衫 阅读(273) 评论(0) 推荐(0)
摘要: Apache框架版本: CDH框架版本: 阅读全文
posted @ 2020-03-29 20:23 七寸青衫 阅读(419) 评论(0) 推荐(0)
摘要: 特点: 1、TailDirSource以接近实时的所读监控文件中写入的新行 2、TailDirSource检测文件中写入的新行,并且将每个文件tail的位置记录在一个JSON的文件中 3、即使agent挂了,重启后,source从上次记录的位置继续执行tail操作 4、用户可以 修改Position 阅读全文
posted @ 2020-03-29 20:18 七寸青衫 阅读(568) 评论(0) 推荐(0)
摘要: 这个异常是logback.xml出现错误 查看logback.xml发现标签格式错误 修改正确即可 阅读全文
posted @ 2020-03-25 22:27 七寸青衫 阅读(1429) 评论(2) 推荐(1)
摘要: 一、hbase为什么要集成hive: HBase是一个NoSQL数据库!一般用作对海量大表数据的实时读写,不支持复杂的查询! Hive是一个数据仓库软件!Hive主要用来对数据仓库中的数据进行分析!Hive支持使用HQL对表中的数据进行查询! Hive > HQL >HDFS上的数据 >MR HBa 阅读全文
posted @ 2020-03-23 22:19 七寸青衫 阅读(336) 评论(0) 推荐(0)
摘要: hbase的数据是key-value结构!因此一条数据的唯一标识就是rowkey! region也是根据rowkey进行排序,根据rowkey进行切分! rowkey设计的好,可以提供系统负载均衡的能力! 如何让regionserver负载均衡: 让数据可以基于rowkey排序后,均匀地分散到所有的 阅读全文
posted @ 2020-03-23 22:03 七寸青衫 阅读(295) 评论(0) 推荐(0)
loading: { rebound: { tension: 16, }, spinner: { id: 'spinner', radius: 90, } }