hulifang

2020年4月17日

摘要： checkpoint ：执行checkpoint操作使得offset保存在checkpoint中，系统挂掉重启没问题，但是系统升级，checkpoint数据就无法使用将offset保存到hbase 将offset保存到zookeeper 将offset保存到kafka本身详细网址 https:/ 阅读全文

posted @ 2020-04-17 11:31 hulifang 阅读(249) 评论(0) 推荐(0)

2020年4月16日

数据倾斜解决方案

摘要： 1）聚合原数据（主要操作的是hive数据库中的数据，先通过hive sql将相同key的数据聚合成一条数据，再进行map操作）当没办法聚合成一条数据时：增大key粒度，从而key的数量会减少，但是每个key对应的数据量会增大，key之间的数据量差异可能会减少。 2）过滤导致倾斜的key 3）提高s 阅读全文

posted @ 2020-04-16 16:25 hulifang 阅读(580) 评论(0) 推荐(0)

广播变量使用注意事项

摘要：变量一旦被定义成广播变量，那么这个变量只能读，不能被修改 RDD是不能被广播出去的，因为RDD是不存储数据的，可以将rdd的结果广播出去广播变量只能在driver端定义，不能在executor端定义在Driver端可以修改广播变量的值，在Executor端无法修改广播变量的值。如果execut 阅读全文

posted @ 2020-04-16 15:40 hulifang 阅读(754) 评论(0) 推荐(0)

spark调优

摘要： 1】spark常规性能调优（1）提交作业参数合理的设置（2）rdd尽可能的复用（3）rdd持久化（4）并行度调节（5）广播变量（6）kryo序列化（7）调节本地化等待时长（数据本地化思想）spark.locality.wait https://blog.csdn.net/zhouyan 阅读全文

posted @ 2020-04-16 15:05 hulifang 阅读(208) 评论(0) 推荐(0)

2020年4月2日

flume断点续传（防止重复消费）的解决方案和flume 向hdfs sink写数据小文件过多问题

摘要： flume1.7一直都是自己修改源代码实现断点续传，1.7之后出现taildir source实现断点续传。 https://blog.csdn.net/Abysscarry/article/details/89420560 小文件过多的解决方案： https://blog.csdn.net/qq_ 阅读全文

posted @ 2020-04-02 15:50 hulifang 阅读(1210) 评论(0) 推荐(0)

2020年3月31日

sqoop导出hive数据到mysql避免空值

摘要：问题（1） Sqoop导入导出Null存储一致性问题 Hive中的Null在底层是以“”\N“”来存储，而mysql中的Null在底层就是Null,为了保证数据两端的一致性，在导出数据时采用--input-null-string和--input-null-non-string两个参数。导入时采用-- 阅读全文

posted @ 2020-03-31 11:31 hulifang 阅读(2321) 评论(0) 推荐(0)

2020年3月27日

sum(if())使用

摘要：原表：id fenlei time1 分类1 201303162 分类2 201303163 分类3 201303174 分类2 201303175 分类3 20130318需要查上表，得到结果插入新表新表结构：id fenlei_1 fenlei_2 fenlei_3 date1 1 1 0 20 阅读全文

posted @ 2020-03-27 11:05 hulifang 阅读(2728) 评论(0) 推荐(0)

2020年3月26日

数仓中的GMV

摘要： GMV是成交总额（一定时间段内）的意思。多用于电商行业，一般包含拍下未支付订单金额。阅读全文

posted @ 2020-03-26 17:06 hulifang 阅读(823) 评论(0) 推荐(0)

2020年3月25日

范式,第一范式、第二范式、第三范式

摘要：范式的含义：可以理解为，数据表的表结构所符合的某种设计标准的级别。第一范式，是对关系模型的基本要求，不满足第一范式的关系，不能称之为关系型数据库。符合第一范式的关系，每个属性都不可以再分割。（属性不可分割）第二范式，首先满足第一范式，确保表中的每列都和主键相关（也就是说在一个数据库表中，一个表阅读全文

posted @ 2020-03-25 16:12 hulifang 阅读(4918) 评论(0) 推荐(0)

hive优化点

摘要： 1）map join（默认是开启的） MapJoin是hive的一种优化操作，其适用于小表join大表的场景，由于表的操作是在Map端且在内存进行的，所以其不需要启动reduce任务也就不需要经过shuffle阶段，从而能在一定程度上节省资源提高Join效率。 2）分区，分桶 3）合理设置map个数阅读全文

posted @ 2020-03-25 14:18 hulifang 阅读(183) 评论(0) 推荐(0)

公告