2019 年 8月随笔档案 - TryMyBest!

如何在堡垒机中查询hdfs文件？

摘要：hadoop fs -ls hdfs://路径阅读全文

posted @ 2019-08-30 17:30 TryMyBest! 阅读(360) 评论(0) 推荐(0)

如何将mysql的数据导入到hive中？

摘要：先将mysql的数据导入到文件中，再将文件导入到hdfs中。再将hdfs的数据插入到表中阅读全文

posted @ 2019-08-30 15:03 TryMyBest! 阅读(2317) 评论(0) 推荐(0)

如何向分区里添加数据？

摘要：alter table 数据库名.表名 add partition(分区名=值)location '文件位置/文件名分区名=值'；阅读全文

posted @ 2019-08-30 14:51 TryMyBest! 阅读(829) 评论(0) 推荐(0)

如何用正则表达式，匹配字段带中文的值？

摘要：regexp '[\\u4E00-\\u9FA5]' 阅读全文

posted @ 2019-08-30 10:08 TryMyBest! 阅读(474) 评论(0) 推荐(0)

如何将文本文件的数据导入到hive中？

摘要：①将数据放到hdfs制定文件夹下：hadoop fs -put 服务器上的文件存储路径/文件名称.txt hdfs://alg-hdfs/hdfs上路径 ②将hdfs中的数据导入到hive中： load data inpath 'hdfs://alg-hdfs/hdfs上的路径/文件名.txt' o 阅读全文

posted @ 2019-08-30 10:04 TryMyBest! 阅读(2719) 评论(0) 推荐(0)

durid报表建设，可以方便统计UV

摘要：durid报表建设，可以方便统计UV 阅读全文

posted @ 2019-08-30 10:00 TryMyBest! 阅读(257) 评论(0) 推荐(0)

20190829心得

摘要：1.为什么自动调度的任务跑完数后，表中没有数据。过了几个小时后再重启任务跑数，又有了数据？答：因为依赖的表中有数据延迟，导致依赖的表在调度的那一刻，没有数据，所以后生成的表也没有数据。过了几个小时后，依赖的表中有了数据，这样再重启调度跑数，表中也就有了数据。 2.如何写循环的shell脚本？答：阅读全文

posted @ 2019-08-30 09:51 TryMyBest! 阅读(141) 评论(0) 推荐(0)

为什么hive表有数据，但count(*)返回0

摘要：因为数据的存储问题该表创建时指定的存储格式为parquet，所以count()无法统计阅读全文

posted @ 2019-08-27 15:45 TryMyBest! 阅读(1476) 评论(1) 推荐(0)

数仓建设时，要建历史表，用于保存历史数据，用于日后出问题时，起修复数据的作用。按日期分区，每天都把所有的数据存到当天的分区里

摘要：数仓建设时，要建历史表，用于保存历史数据，用于日后出问题时，起修复数据的作用。按日期分区，每天都把所有的数据存到当天的分区里阅读全文

posted @ 2019-08-22 10:44 TryMyBest! 阅读(494) 评论(0) 推荐(0)

get_json_object用以获取json类型的字段的值

摘要：get_json_object用以获取json类型的字段的值阅读全文

posted @ 2019-08-22 10:27 TryMyBest! 阅读(1414) 评论(0) 推荐(0)

str_to_map语句，字符串类型变map类型

摘要：str_to_map语句，字符串类型变map类型阅读全文

posted @ 2019-08-22 10:26 TryMyBest! 阅读(576) 评论(0) 推荐(0)

按更新时间取最新记录

摘要：select * from (select row_number() over(partition by resourceid order by updatetime desc) rank, * from browser.st_resource_info_h ) rn1 where rank=1 阅读全文

posted @ 2019-08-22 10:25 TryMyBest! 阅读(330) 评论(0) 推荐(0)

hive临时表

摘要：hive可以在脚本的hql最前端，用如下语句 with 临时表名 as （sql语句）创建临时表，只在当前脚本使用的临时表。阅读全文

posted @ 2019-08-22 10:23 TryMyBest! 阅读(11036) 评论(0) 推荐(0)

数仓分层

摘要：ODS：原始数据层 DWD或DWI：明细数据层 DWS：服务数据层或轻度汇总层 ADS：数据应用层阅读全文

posted @ 2019-08-22 10:19 TryMyBest! 阅读(391) 评论(0) 推荐(0)

次日留存、七日留存

摘要：在表中添加一个新字段，留存状态。每天默认状态是全部的留存。第二天更新数据既更新填充第二天的数据，也更新前一天的数据，会更新前一天数据中的留存状态。如果前一天的人不在第二天的数据里，那么前一天的人的留存状态即为无留存。七日留存也类似这种方法操作。阅读全文

posted @ 2019-08-22 09:34 TryMyBest! 阅读(2154) 评论(0) 推荐(0)

08 2019 档案

公告