会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
啤酒泡枸杞
林无静树,川无停流。
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
下一页
2020年4月7日
hive动态分区与半自动分区
摘要: 动态分区与半自动分区要求: ①默认hive是不允许动态分区的,需要设置set hive.exec.dynamic.partition.mode=nonstrict ②分区列必须位于查询的最后一个字段 ③select字段的个数要<=表的字段个数+1 静态分区: insert overwrite 表名
阅读全文
posted @ 2020-04-07 00:14 七寸青衫
阅读(424)
评论(0)
推荐(0)
2020年4月4日
数仓的分层
摘要: 一、数仓为什么要分层? 1、分层解耦,可以让开发思路更加清晰,复杂问题简单化(出错时,可以精确定位数据) 2、节省重复开发 3、脱敏 二、数仓的分层 以5层数仓为例 ODS层:原始数据层,原始数据原封不动的直接导入! DWD层:基于ODS层,将原始数据进行清洗,筛选后的数据,把其中的明细打开 例如:
阅读全文
posted @ 2020-04-04 16:42 七寸青衫
阅读(1138)
评论(0)
推荐(0)
数据的同步策略
摘要: 一、数据同步策略的类型包括:全量表,增量表,新增及变化表 1、全量表:存储完整的数据 2、增量表:存储新增加的数据 3、新增及变化表:存储新增加的数据和变化的数据 4、特殊表:只需要存储一次的数据 二、全量同步策略 全量同步策略: 每日全量,就是每天存储一份完整的数据,作为一个分区 适用于表中数据量
阅读全文
posted @ 2020-04-04 16:29 七寸青衫
阅读(933)
评论(0)
推荐(0)
2020年4月1日
关于内存问题
摘要: top 查看内存 具体解释:看大佬的https://blog.csdn.net/yjclsx/article/details/81508455 通过对应的pid查找对应的进程 找啊找啊 找不到 咋办呐。。 找到了。。。 没有任务在进行,但是占用还是很高 释放一下内存吧 有改善,只是稍微好一点点。。
阅读全文
posted @ 2020-04-01 01:01 七寸青衫
阅读(132)
评论(0)
推荐(0)
2020年3月30日
shell工具
摘要: 一、cut:从文件的每一行剪切字节,字符,字段并将这些输出 基本用法: cut [选项参数] filename 选项参数 功能 -f 列号,提取第几列 -d 分隔符,按照指定分隔符分割列 -c 指定具体的字符 二、sed:流编辑器,一次处理一行内容,处理时,吧当前处理的行存储在临时缓冲区,称为“模式
阅读全文
posted @ 2020-03-30 21:32 七寸青衫
阅读(273)
评论(0)
推荐(0)
2020年3月29日
Apache框架版本&CDH框架版本
摘要: Apache框架版本: CDH框架版本:
阅读全文
posted @ 2020-03-29 20:23 七寸青衫
阅读(419)
评论(0)
推荐(0)
TailDirSource
摘要: 特点: 1、TailDirSource以接近实时的所读监控文件中写入的新行 2、TailDirSource检测文件中写入的新行,并且将每个文件tail的位置记录在一个JSON的文件中 3、即使agent挂了,重启后,source从上次记录的位置继续执行tail操作 4、用户可以 修改Position
阅读全文
posted @ 2020-03-29 20:18 七寸青衫
阅读(568)
评论(0)
推荐(0)
2020年3月25日
异常Failed to auto configure default logger context
摘要: 这个异常是logback.xml出现错误 查看logback.xml发现标签格式错误 修改正确即可
阅读全文
posted @ 2020-03-25 22:27 七寸青衫
阅读(1429)
评论(2)
推荐(1)
2020年3月23日
HBase集成Hive的总结
摘要: 一、hbase为什么要集成hive: HBase是一个NoSQL数据库!一般用作对海量大表数据的实时读写,不支持复杂的查询! Hive是一个数据仓库软件!Hive主要用来对数据仓库中的数据进行分析!Hive支持使用HQL对表中的数据进行查询! Hive > HQL >HDFS上的数据 >MR HBa
阅读全文
posted @ 2020-03-23 22:19 七寸青衫
阅读(336)
评论(0)
推荐(0)
关于HBase中Rowkey的设计原则
摘要: hbase的数据是key-value结构!因此一条数据的唯一标识就是rowkey! region也是根据rowkey进行排序,根据rowkey进行切分! rowkey设计的好,可以提供系统负载均衡的能力! 如何让regionserver负载均衡: 让数据可以基于rowkey排序后,均匀地分散到所有的
阅读全文
posted @ 2020-03-23 22:03 七寸青衫
阅读(295)
评论(0)
推荐(0)
上一页
1
2
3
4
5
下一页
公告
loading: { rebound: { tension: 16, }, spinner: { id: 'spinner', radius: 90, } }