摘要: 今天用到了named_struct类型,主要用这个函数做json拼接 select named_struct( '"supplier_sku_id"',supplier_sku_id, '"supplier_id"',t1.supplier_id, '"prefee_rate"',prefee_ra 阅读全文
posted @ 2020-08-12 23:05 活不明白 阅读(96) 评论(0) 推荐(0)
摘要: 主要自己做个记录吧,流程:pyodps读取数据源-->pandas-->pyecharts;每天调度会计算好数据落到odps,这边再加个自动发送就好了。 桑基图个人觉得某些场景还是蛮适合的,图像的表征能力还是很强的。 2022年6月1日记录;搞流量数据之后发现这个表有一个好处,做页面周转的图可太好了 阅读全文
posted @ 2020-08-03 22:23 活不明白 阅读(42) 评论(0) 推荐(0)
摘要: 本地文件有传输到odps的需要,虽然阿里云dataworks有这样的操作界面,但是文件内容有个逗号啥的就会有问题,所以专门写个脚本处理这一步。 处理逻辑: pandas_read_csv >pyodps的dataframe >odps 代码如下,简单方便: # -*- coding: utf-8 - 阅读全文
posted @ 2020-08-03 20:56 活不明白 阅读(88) 评论(0) 推荐(0)
摘要: 大屏在公司越来越常见了,我认为最大的作用还是更及时的发现生产过程中的问题,大屏的选择有很多,比如公司的前端可以自己开发下,或者用报表软件开发,tableau或者帆软都行,还有直接购买外面成熟的大屏产品,比如阿里云的datav。我们公司是买的帆软,report也可以实现这一功能,就用这个做了。 一、数 阅读全文
posted @ 2020-03-22 23:35 活不明白 阅读(134) 评论(0) 推荐(0)
摘要: 一、背景 公司的注册信息里没有用户性别这一项,但是我们的场景算是电商,如果知道用户的性别,对用户的商品推荐及排序都会比较重要,产品体验会更好 二、大致思路 参考现有的数据,一种是用户的维度数据,比如用户使用的手机型号,用户装的app(会有很多维的数据),用户是不是活动来的(我们平台的拉新活动),另一 阅读全文
posted @ 2020-02-21 22:13 活不明白 阅读(77) 评论(0) 推荐(0)
摘要: 工作中,大多数时候会需要把json数组中的数据解析出来,现在会经常和后端打交道,后端同学就希望把正常的行列数据用json的形式给他们,他们使用起来方便,我看有的文章会写用udtf函数实现,不过本着能用内置函数绝不用自定义函数的原则(主要是我不会写),用内置函数实现也不是很难。 原数据形式: 希望转换 阅读全文
posted @ 2019-10-27 13:11 活不明白 阅读(157) 评论(0) 推荐(0)
摘要: 使用impala查询引擎的时候,如果count(disticnt column)数据量过大会报错,报错内容 正在提取遇到以下错误的结果: org.apache.hive.service.cli.HiveSQLException: AnalysisException: all DISTINCT agg 阅读全文
posted @ 2019-09-20 21:01 活不明白 阅读(117) 评论(0) 推荐(0)
摘要: 问题背景:公司后端用的是php,后端开发爸爸存数据的时候存的是php反序列化的数据,我们数据这边需要用到这些字段的信息,想着自己处理一下。 所在环境:大数据平台使用的是阿里云的dataworks,直接函数处理是不行的,需要写个UDF,这边支持java和python的UDF,由于自己的java实在太差 阅读全文
posted @ 2019-09-08 13:34 活不明白 阅读(45) 评论(0) 推荐(0)
摘要: 拉链表在实际工作中还是有使用的必要,能够大量的节省存储空间,我这次主要使用在商户信息构建,商户姓名存在改名字的可能性,但是商户id不变,下面是一个商户信息表做拉链表的例子。 主要构建思路:1、首先,找到记录最早一天的商户信息作为初始状态,写入到最后使用的表中 2、然后把改名字的商户的结束日期修改下 阅读全文
posted @ 2019-07-22 20:36 活不明白 阅读(116) 评论(0) 推荐(0)
摘要: 一个完整的数据仓库,日期维度表是必不可少的,对于数据的多维度处理是一个很好的东西。现在的工作环境是阿里云,在这个环境下用纯sql构建了一个日期维度表,主要字段包含以下结果,后续农历日期将通过udf实现,再补充进来 数据生产方案先借用调度系统的补数据方案补指定日期内的数据: 主要字段包含以下数据: c 阅读全文
posted @ 2019-07-01 22:59 活不明白 阅读(60) 评论(0) 推荐(0)