2023年6月25日
摘要: 数据从业务端产生,到分析或者反哺业务使用,需要经过一系列的清洗、处理过程,这一个过程往往需要一定的时间窗口,这就是数据的时效性。 按照数据延迟的大小,可以将数据分为实时数据和离线数据。 一、离线数据 离线数据一般指T+1的日期,数据结果中,能够体现的业务数据最新的是前一天的数据。 离线数据处理也称为 阅读全文
posted @ 2023-06-25 11:16 比较是快乐的小偷· 阅读(634) 评论(0) 推荐(0)
  2023年3月21日
摘要: hive除了包含很多内置函数外,也提供了自定义函数功能。一般有两种方法实现:自定义内置函数 UDF(Java)和Transform关键字(Python) 案例一:使用 transform+python 的方式去转换 unixtime 为 weekday 注意: 使用TRANSFORM需要将所有的候选 阅读全文
posted @ 2023-03-21 11:48 比较是快乐的小偷· 阅读(196) 评论(0) 推荐(0)