随笔分类 - 网站日志流量分析
摘要:之前已经完成zookeeper集群、Hadoop集群、HBase集群、Flume、Kafka集群、Spark集群的搭建:使用Docker搭建Spark集群(用于实现网站流量实时分析模块),且离线分析模块已经在之前的模块中实现(网站日志流量分析系统之数据清洗处理(离线分析)),这次基于Docker搭建
阅读全文
摘要:上一篇使用Docker搭建了Hadoop的完全分布式:使用Docker搭建Hadoop集群(伪分布式与完全分布式),本次记录搭建spark集群,使用两者同时来实现之前一直未完成的项目:网站日志流量分析系统(该系统目前用虚拟机实现了离线分析模块,实时分析由于资源问题尚未完成 这次spark集群用于该项
阅读全文
摘要:一、概述 基于Docker搭建的环境:使用Docker搭建Spark集群(用于实现网站流量实时分析模块),运行项目后,各个数据正常,根据架构图,最后一步,进行数据可视化。 二、数据可视化 数据可视化代码:https://github.com/Simple-Coder/log-demo 用户通过点击页
阅读全文
摘要:一、概述 网站日志流量分析系统之数据清洗处理(离线分析)已经将数据进行清洗处理,但是处理过程分区信息(日期reportTime是写死的),而且hql语句也是需要人工手动去执行,在实际开发中肯定不会容忍这样的事情,所以让程序自动程序那些hql语句,作离线分析是当下我们要解决的问题。 二、自动化脚本 (
阅读全文
摘要:网站日志流量分析系统之(日志收集)已将数据落地收集并落地至HDFS,根据网站日志流量分析系统中架构图,接下来要做的事情就是做离线分析,编写MR程序或通过手写HQL对HDFS中的数据进行清洗;由于清洗逻辑比较简单,这里我选择用Hive来对HDFS中的数据进行清洗(当然也可以用MR来清洗)。数据清洗处理
阅读全文
摘要:一、概述 网站日志流量分析系统之(日志埋点)这里我们已经将相关数据通过ajax发送至日志服务器,这里我只用了一台日志服务器(本机Windows环境),日志收集主要分为以下几个步骤: ①日志服务器集结合logback,并自定义日志过滤器,将日志发给对应FlumeAgent客户端 ②FlumeAgent
阅读全文
摘要:一、概述 日志埋点分为客户端和服务器端。参考并转自:https://www.cnblogs.com/hzhuxin/p/11152805.html,如有侵权,请联系删除。) ①客户端埋点:支持 iOS、安卓、Web/H5、微信小程序,主要用于分析 UV、PV、点击量等基本指标。例:下图是Web端的埋
阅读全文
摘要:一、概述 背景:在互联网应用中,日志是非常重要的数据,因为互联网项目往往要求是7*24不间断运行的,所以能获取到监控系统运行的相关日志数据并进行分析就显得非常重要。网站流量统计是改进网站服务的重要手段之一,通过获取用户在网站的行为数据,进行分析,从而得到有价值的信息,并基于这些信息对网站进行改进。
阅读全文

浙公网安备 33010602011771号