会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
hulifang
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
7
8
9
下一页
2020年4月17日
spark streaming 消费kafka存储offsets到外部介质
摘要: checkpoint :执行checkpoint操作使得offset保存在checkpoint中,系统挂掉重启没问题,但是系统升级,checkpoint数据就无法使用 将offset保存到hbase 将offset保存到zookeeper 将offset保存到kafka本身 详细网址 https:/
阅读全文
posted @ 2020-04-17 11:31 hulifang
阅读(248)
评论(0)
推荐(0)
2020年4月16日
数据倾斜解决方案
摘要: 1)聚合原数据(主要操作的是hive数据库中的数据,先通过hive sql将相同key的数据聚合成一条数据,再进行map操作) 当没办法聚合成一条数据时:增大key粒度,从而key的数量会减少,但是每个key对应的数据量会增大,key之间的数据量差异可能会减少。 2)过滤导致倾斜的key 3)提高s
阅读全文
posted @ 2020-04-16 16:25 hulifang
阅读(578)
评论(0)
推荐(0)
广播变量使用注意事项
摘要: 变量一旦被定义成广播变量,那么这个变量只能读,不能被修改 RDD是不能被广播出去的,因为RDD是不存储数据的,可以将rdd的结果广播出去 广播变量只能在driver端定义,不能在executor端定义 在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。 如果execut
阅读全文
posted @ 2020-04-16 15:40 hulifang
阅读(753)
评论(0)
推荐(0)
spark调优
摘要: 1】spark常规性能调优 (1)提交作业参数合理的设置 (2)rdd尽可能的复用 (3)rdd持久化 (4)并行度调节 (5)广播变量 (6)kryo序列化 (7)调节本地化等待时长(数据本地化思想)spark.locality.wait https://blog.csdn.net/zhouyan
阅读全文
posted @ 2020-04-16 15:05 hulifang
阅读(205)
评论(0)
推荐(0)
2020年4月2日
flume断点续传(防止重复消费)的解决方案和flume 向hdfs sink写数据小文件过多问题
摘要: flume1.7一直都是自己修改源代码实现断点续传,1.7之后出现taildir source实现断点续传。 https://blog.csdn.net/Abysscarry/article/details/89420560 小文件过多的解决方案: https://blog.csdn.net/qq_
阅读全文
posted @ 2020-04-02 15:50 hulifang
阅读(1208)
评论(0)
推荐(0)
2020年3月31日
sqoop导出hive数据到mysql避免空值
摘要: 问题(1) Sqoop导入导出Null存储一致性问题 Hive中的Null在底层是以“”\N“”来存储,而mysql中的Null在底层就是Null,为了保证数据两端的一致性,在导出数据时采用--input-null-string和--input-null-non-string两个参数。导入时采用--
阅读全文
posted @ 2020-03-31 11:31 hulifang
阅读(2313)
评论(0)
推荐(0)
2020年3月27日
sum(if())使用
摘要: 原表:id fenlei time1 分类1 201303162 分类2 201303163 分类3 201303174 分类2 201303175 分类3 20130318需要查上表,得到结果插入新表新表结构:id fenlei_1 fenlei_2 fenlei_3 date1 1 1 0 20
阅读全文
posted @ 2020-03-27 11:05 hulifang
阅读(2724)
评论(0)
推荐(0)
2020年3月26日
数仓中的GMV
摘要: GMV是成交总额(一定时间段内)的意思。多用于电商行业,一般包含拍下未支付订单金额。
阅读全文
posted @ 2020-03-26 17:06 hulifang
阅读(821)
评论(0)
推荐(0)
2020年3月25日
范式,第一范式、第二范式、第三范式
摘要: 范式的含义: 可以理解为,数据表的表结构所符合的某种设计标准的级别。 第一范式,是对关系模型的基本要求,不满足第一范式的关系,不能称之为关系型数据库。符合第一范式的关系,每个属性都不可以再分割。(属性不可分割) 第二范式,首先满足第一范式,确保表中的每列都和主键相关(也就是说在一个数据库表中,一个表
阅读全文
posted @ 2020-03-25 16:12 hulifang
阅读(4864)
评论(0)
推荐(0)
hive优化点
摘要: 1)map join(默认是开启的) MapJoin是hive的一种优化操作,其适用于小表join大表的场景,由于表的操作是在Map端且在内存进行的,所以其不需要启动reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高Join效率。 2)分区,分桶 3)合理设置map个数
阅读全文
posted @ 2020-03-25 14:18 hulifang
阅读(182)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
下一页
公告