摘要: 一、概述 基于Docker搭建的环境:使用Docker搭建Spark集群(用于实现网站流量实时分析模块),运行项目后,各个数据正常,根据架构图,最后一步,进行数据可视化。 二、数据可视化 数据可视化代码:https://github.com/Simple-Coder/log-demo 用户通过点击页 阅读全文
posted @ 2019-09-07 18:37 coder、 阅读(2765) 评论(0) 推荐(0) 编辑
摘要: 一、概述 网站日志流量分析系统之数据清洗处理(离线分析)已经将数据进行清洗处理,但是处理过程分区信息(日期reportTime是写死的),而且hql语句也是需要人工手动去执行,在实际开发中肯定不会容忍这样的事情,所以让程序自动程序那些hql语句,作离线分析是当下我们要解决的问题。 二、自动化脚本 ( 阅读全文
posted @ 2019-09-07 18:36 coder、 阅读(1407) 评论(0) 推荐(0) 编辑
摘要: 网站日志流量分析系统之(日志收集)已将数据落地收集并落地至HDFS,根据网站日志流量分析系统中架构图,接下来要做的事情就是做离线分析,编写MR程序或通过手写HQL对HDFS中的数据进行清洗;由于清洗逻辑比较简单,这里我选择用Hive来对HDFS中的数据进行清洗(当然也可以用MR来清洗)。数据清洗处理 阅读全文
posted @ 2019-09-07 01:32 coder、 阅读(3420) 评论(0) 推荐(0) 编辑