08 2019 档案
摘要:hadoop fs -ls hdfs://路径
阅读全文
摘要:先将mysql的数据导入到文件中,再将文件导入到hdfs中。再将hdfs的数据插入到表中
阅读全文
摘要:alter table 数据库名.表名 add partition(分区名=值)location '文件位置/文件名分区名=值';
阅读全文
摘要:regexp '[\\u4E00-\\u9FA5]'
阅读全文
摘要:①将数据放到hdfs制定文件夹下:hadoop fs -put 服务器上的文件存储路径/文件名称.txt hdfs://alg-hdfs/hdfs上路径 ②将hdfs中的数据导入到hive中: load data inpath 'hdfs://alg-hdfs/hdfs上的路径/文件名.txt' o
阅读全文
摘要:durid报表建设,可以方便统计UV
阅读全文
摘要:1.为什么自动调度的任务跑完数后,表中没有数据。过了几个小时后再重启任务跑数,又有了数据? 答:因为依赖的表中有数据延迟,导致依赖的表在调度的那一刻,没有数据,所以后生成的表也没有数据。过了几个小时后,依赖的表中有了数据,这样再重启调度跑数,表中也就有了数据。 2.如何写循环的shell脚本? 答:
阅读全文
摘要:因为数据的存储问题 该表创建时指定的存储格式为parquet,所以count()无法统计
阅读全文
摘要:数仓建设时,要建历史表,用于保存历史数据,用于日后出问题时,起修复数据的作用。按日期分区,每天都把所有的数据存到当天的分区里
阅读全文
摘要:get_json_object用以获取json类型的字段的值
阅读全文
摘要:str_to_map语句,字符串类型变map类型
阅读全文
摘要:select * from (select row_number() over(partition by resourceid order by updatetime desc) rank, * from browser.st_resource_info_h ) rn1 where rank=1
阅读全文
摘要:hive可以在脚本的hql最前端,用如下语句 with 临时表名 as (sql语句) 创建临时表,只在当前脚本使用的临时表。
阅读全文
摘要:ODS:原始数据层 DWD或DWI:明细数据层 DWS:服务数据层或轻度汇总层 ADS:数据应用层
阅读全文
摘要:在表中添加一个新字段,留存状态。每天默认状态是全部的留存。第二天更新数据既更新填充第二天的数据,也更新前一天的数据,会更新前一天数据中的留存状态。如果前一天的人不在第二天的数据里,那么前一天的人的留存状态即为无留存。 七日留存也类似这种方法操作。
阅读全文
浙公网安备 33010602011771号