摘要: 接上文,本文采用Hive相关的技术来完成数据清理和计算 一. 原始日志信息的存储 hive的表支持正则式的方式进行存储和读取,如下:(注:不要建成外部表,便于数据清洗完后Truncate掉数据,以便后续数据的清洗) 我们的access.log的日志数据格式如下: 所以建表语句中的正则式 二. 原始日 阅读全文
posted @ 2019-07-29 20:45 杭州胡欣 阅读(843) 评论(0) 推荐(0) 编辑