Fork me on GitHub
摘要: 项目背景 新冠疫情防控指挥作战平台项目的需求由传智播客提出,北京大数据研究院博雅智慧公司策划, 双方共同研发。项目实现了疫情态势、基层防控、物资保障、复工复产等多个专题板块,包括新冠 疫情防控指挥大屏子系统和新冠疫情防控指挥平台后台管理子系统。 通过新冠疫情防控指挥作战平台的建设及实施,使得从局部作 阅读全文
posted @ 2020-08-11 09:43 园狐 阅读(2155) 评论(0) 推荐(0)
摘要: 一、 模块开发 统计分析 数据仓库建设好以后,用户就可以编写Hive SQL语句对其进行访问并对其中数据进行分析。 在实际生产中,究竟需要哪些统计指标通常由数据需求相关部门人员提出,而且会不断有新的统计需求产生,以下为网站流量分析中的一些典型指标示例。 1. 流量分析 1.1. 基础指标多维统计分析 阅读全文
posted @ 2020-08-11 09:28 园狐 阅读(836) 评论(0) 推荐(0)
摘要: 流量分析常见分类 指标是网站分析的基础,用来记录和衡量访问者在网站自的各种行为。常见的指标如下: 基础级指标 PageView浏览次数(PV):用户每打开1个网站页面,记录1个PV。用户多次打开同一页面PV累计多次。通俗解释就是页面被加载的总次数。 Unique Visitor独立访客(UV): 1 阅读全文
posted @ 2020-08-11 08:53 园狐 阅读(776) 评论(0) 推荐(0)
摘要: 宽表窄表的引入 --需求:统计今天每个小时访问量有多少? --需要根据小时hour进行分组 group by 分组之后统计每个组内的个数count --当下:group by(substring(time_local,12,2)) --缺点:每一条记录在分组之前 都需要进行所谓的截取操作 --原因: 阅读全文
posted @ 2020-08-11 08:36 园狐 阅读(452) 评论(0) 推荐(0)
摘要: 数据预处理 在正式处理数据之前对收集的数据进行预先处理的操作。 原因:不管通过何种手段收集的数据 往往是不利于直接分析的 数据中存在的格式规整的差异。 目的:把不干净的数据 格式不规则的数据 通过预处理清洗变成格式统一规整的结构化数据 技术:MapReduce 预处理的编程思路问题 在使用mr编程的 阅读全文
posted @ 2020-08-10 17:15 园狐 阅读(707) 评论(0) 推荐(1)
摘要: 网站流量日志分析的意义 通过分析用户的行为数据 让更多的用户沉淀下来变成会员 赚取更多的钱。 如何进行网站分析 流量分析 - 质量分析 在看重数量的同时 需要关注流量的质量 所谓的质量指的是流量所能带来产生的价值。 - 多维度细分 维度指的是分析的问题的角度 在不同的维度下 问题所展示的特性是不一样 阅读全文
posted @ 2020-08-10 16:38 园狐 阅读(2726) 评论(0) 推荐(0)
摘要: 数仓设计 维度建模 以维度为标准 开展数据的分析需求 适用于面向分析领域的理论。比如分析型数据库 数据仓库 数据集市(OLAP) 事实表 分析主题的客观事件度量 是分析主题的数据聚集 事实表中一条记录往往对应着客观的一个事件 往往是一堆主键的聚集 维度表 所谓的维度就是指看待问题的角度 可以通过不同 阅读全文
posted @ 2020-08-10 15:55 园狐 阅读(887) 评论(0) 推荐(0)
摘要: beeline 连接报错 后台启动 nohup bin/hive --service hiveserver2 > /dev/null 2>&1 & bin/beeline !connect jdbc:hive2://node01:10000 Could not open connection to 阅读全文
posted @ 2020-08-10 09:46 园狐 阅读(790) 评论(0) 推荐(0)
摘要: 初晨暖阳,夜落星河。少年披梦,远方有歌。红黄之上,春夏晚风。闲肆游走,人群熙攘。 阅读全文
posted @ 2020-08-08 08:52 园狐 阅读(163) 评论(0) 推荐(0)
摘要: hadoop集群启动 cd /export/servers/hadoop-2.7.5/ sbin/start-dfs.sh sbin/start-yarn.sh sbin/mr-jobhistory-daemon.sh start historyserver 三个端口查看界面 http://node 阅读全文
posted @ 2020-08-08 08:04 园狐 阅读(268) 评论(0) 推荐(0)