会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
活不明白
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
下一页
2020年8月12日
named_struct类型怎么用
摘要: 今天用到了named_struct类型,主要用这个函数做json拼接 select named_struct( '"supplier_sku_id"',supplier_sku_id, '"supplier_id"',t1.supplier_id, '"prefee_rate"',prefee_ra
阅读全文
posted @ 2020-08-12 23:05 活不明白
阅读(96)
评论(0)
推荐(0)
2020年8月3日
阿里云数据读取做桑基图
摘要: 主要自己做个记录吧,流程:pyodps读取数据源-->pandas-->pyecharts;每天调度会计算好数据落到odps,这边再加个自动发送就好了。 桑基图个人觉得某些场景还是蛮适合的,图像的表征能力还是很强的。 2022年6月1日记录;搞流量数据之后发现这个表有一个好处,做页面周转的图可太好了
阅读全文
posted @ 2020-08-03 22:23 活不明白
阅读(42)
评论(0)
推荐(0)
基于pyodps读本地文件上传到odps
摘要: 本地文件有传输到odps的需要,虽然阿里云dataworks有这样的操作界面,但是文件内容有个逗号啥的就会有问题,所以专门写个脚本处理这一步。 处理逻辑: pandas_read_csv >pyodps的dataframe >odps 代码如下,简单方便: # -*- coding: utf-8 -
阅读全文
posted @ 2020-08-03 20:56 活不明白
阅读(88)
评论(0)
推荐(0)
2020年3月22日
用finereport做一个大屏
摘要: 大屏在公司越来越常见了,我认为最大的作用还是更及时的发现生产过程中的问题,大屏的选择有很多,比如公司的前端可以自己开发下,或者用报表软件开发,tableau或者帆软都行,还有直接购买外面成熟的大屏产品,比如阿里云的datav。我们公司是买的帆软,report也可以实现这一功能,就用这个做了。 一、数
阅读全文
posted @ 2020-03-22 23:35 活不明白
阅读(134)
评论(0)
推荐(0)
2020年2月21日
用户性别预测
摘要: 一、背景 公司的注册信息里没有用户性别这一项,但是我们的场景算是电商,如果知道用户的性别,对用户的商品推荐及排序都会比较重要,产品体验会更好 二、大致思路 参考现有的数据,一种是用户的维度数据,比如用户使用的手机型号,用户装的app(会有很多维的数据),用户是不是活动来的(我们平台的拉新活动),另一
阅读全文
posted @ 2020-02-21 22:13 活不明白
阅读(77)
评论(0)
推荐(0)
2019年10月27日
hive正常数据转化为json数组
摘要: 工作中,大多数时候会需要把json数组中的数据解析出来,现在会经常和后端打交道,后端同学就希望把正常的行列数据用json的形式给他们,他们使用起来方便,我看有的文章会写用udtf函数实现,不过本着能用内置函数绝不用自定义函数的原则(主要是我不会写),用内置函数实现也不是很难。 原数据形式: 希望转换
阅读全文
posted @ 2019-10-27 13:11 活不明白
阅读(157)
评论(0)
推荐(0)
2019年9月20日
impala--NDV()函数
摘要: 使用impala查询引擎的时候,如果count(disticnt column)数据量过大会报错,报错内容 正在提取遇到以下错误的结果: org.apache.hive.service.cli.HiveSQLException: AnalysisException: all DISTINCT agg
阅读全文
posted @ 2019-09-20 21:01 活不明白
阅读(117)
评论(0)
推荐(0)
2019年9月8日
计一次失败的python-udf处理PHP反序列化数据
摘要: 问题背景:公司后端用的是php,后端开发爸爸存数据的时候存的是php反序列化的数据,我们数据这边需要用到这些字段的信息,想着自己处理一下。 所在环境:大数据平台使用的是阿里云的dataworks,直接函数处理是不行的,需要写个UDF,这边支持java和python的UDF,由于自己的java实在太差
阅读全文
posted @ 2019-09-08 13:34 活不明白
阅读(45)
评论(0)
推荐(0)
2019年7月22日
数据仓库之拉链表实现
摘要: 拉链表在实际工作中还是有使用的必要,能够大量的节省存储空间,我这次主要使用在商户信息构建,商户姓名存在改名字的可能性,但是商户id不变,下面是一个商户信息表做拉链表的例子。 主要构建思路:1、首先,找到记录最早一天的商户信息作为初始状态,写入到最后使用的表中 2、然后把改名字的商户的结束日期修改下
阅读全文
posted @ 2019-07-22 20:36 活不明白
阅读(116)
评论(0)
推荐(0)
2019年7月1日
阿里云环境下纯sql构建日期维度表
摘要: 一个完整的数据仓库,日期维度表是必不可少的,对于数据的多维度处理是一个很好的东西。现在的工作环境是阿里云,在这个环境下用纯sql构建了一个日期维度表,主要字段包含以下结果,后续农历日期将通过udf实现,再补充进来 数据生产方案先借用调度系统的补数据方案补指定日期内的数据: 主要字段包含以下数据: c
阅读全文
posted @ 2019-07-01 22:59 活不明白
阅读(60)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
下一页
公告