摘要: flink的source使用比较多的是kafka,本地测试连接公司的集群没有成功,先记录下 package com.shihuo.apitest_source; import org.apache.flink.api.common.serialization.SimpleStringSchema; 阅读全文
posted @ 2021-01-17 23:41 活不明白 阅读(41) 评论(0) 推荐(0)
摘要: flink本地测试大多数时候读的都是本地的数据集,记录下: 1、本地的sensor.txt文件 sensor_1,1547718200,35.8 sensor_1,1547719200,37.8 sensor_1,1547718280,34.8 sensor_6,1547718201,35.5 se 阅读全文
posted @ 2021-01-17 23:37 活不明白 阅读(36) 评论(0) 推荐(0)
摘要: 之前学习了java基础知识,也忘记的差不多了,日常工作还是天天写sql,不写就是不行,还是跟着项目多写写,也学习下flink。 学习主要参照尚硅谷的教程,尚硅谷Java版Flink(武老师清华硕士,原IBM-CDL负责人)_哔哩哔哩_bilibili,感谢尚硅谷的免费课程,有上海的周末培训班就好了, 阅读全文
posted @ 2020-12-27 23:43 活不明白 阅读(58) 评论(0) 推荐(0)
摘要: 1、主要是计算某个字段值里面的标记值,比如某个字符串有多少个逗号 package udf; import com.aliyun.odps.udf.UDF; public class MarkCount extends UDF{ public Long evaluate(String text,Str 阅读全文
posted @ 2020-12-13 19:50 活不明白 阅读(34) 评论(0) 推荐(0)
摘要: 删除所有分区,但是不删除表结构: alter table bigdata2c.dim_trd_supplier drop if exists partition(business rlike '^[\u4e00-\u9fa5_a-zA-Z0-9]+$'); 阅读全文
posted @ 2020-12-09 10:45 活不明白 阅读(20) 评论(0) 推荐(0)
摘要: 背景: 最近有接到业务上的这么个需求,每天计算圈定用户的一些标签,同时把新增和移除标签的信息及当前用户的信息发给下游,这个场景太少了,还是java开发使用场景广泛。 举例: 这个用户昨日新增了tag3和tag2这个标签,同时当前codes也是这2个 任务设计: 首先,存储每天的全量的计算结果,因为新 阅读全文
posted @ 2020-12-03 03:25 活不明白 阅读(42) 评论(0) 推荐(0)
摘要: 工作中同事有时候会需要随机排序,同事会全局写个order by rand(),然后几十亿的数据就会比较慢。 然后会这么改下。先随机分组下,再排序,随机效果应该差不多 distribute by floor(randbetween(1,10001)) sort by RAND(); 阅读全文
posted @ 2020-12-03 03:09 活不明白 阅读(31) 评论(0) 推荐(0)
摘要: hive搞的时候要注意:对于json数组里面只有一个对象的要单独拿出来解析,这个在explode里面会失效 工作中会有这样的数据类型,需要规则化的解析出来方便下游使用 解析如下: select crawler_data_time ,nav ,model ,author_id ,nick_name , 阅读全文
posted @ 2020-10-18 14:56 活不明白 阅读(81) 评论(0) 推荐(0)
摘要: 之前都是手动拼字符串写的,优点是灵活,缺点也很明显,容易出错。 下面提供一种udf的形式: package udf; import com.aliyun.odps.udf.UDF; public class TableBulidJson extends UDF { public String eva 阅读全文
posted @ 2020-10-08 19:34 活不明白 阅读(73) 评论(0) 推荐(0)
摘要: 工作中有时候需要规律化生成sql语句,主要是字段信息上,比如规律化的拆解字段,一个一个写实在是慢,用excel函数规律化生成下。 实例: 如果我是知道这些字段的,比如有个建表语句,黏贴到excel,没有自动分列的自动分列下: 然后:第一列函数操作下:=",json_value(message,'$. 阅读全文
posted @ 2020-08-17 23:43 活不明白 阅读(35) 评论(0) 推荐(0)