随笔分类 - 项目实战
摘要:数据清单 前置知识 什么是网络爬虫 网络爬虫(Web Crawler),又称为网络蜘蛛(Web Spider)或Web 信息采集器,是一种按 照一定规则,自动抓取或下载网络信息的计算机程序或自动化脚本。 狭义上理解 利用标准的HTTP 协议,根据网络超链接(如https://www.baidu.co
阅读全文
摘要:项目背景 新冠疫情防控指挥作战平台项目的需求由传智播客提出,北京大数据研究院博雅智慧公司策划, 双方共同研发。项目实现了疫情态势、基层防控、物资保障、复工复产等多个专题板块,包括新冠 疫情防控指挥大屏子系统和新冠疫情防控指挥平台后台管理子系统。 通过新冠疫情防控指挥作战平台的建设及实施,使得从局部作
阅读全文
摘要:流量分析常见分类 指标是网站分析的基础,用来记录和衡量访问者在网站自的各种行为。常见的指标如下: 基础级指标 PageView浏览次数(PV):用户每打开1个网站页面,记录1个PV。用户多次打开同一页面PV累计多次。通俗解释就是页面被加载的总次数。 Unique Visitor独立访客(UV): 1
阅读全文
摘要:宽表窄表的引入 --需求:统计今天每个小时访问量有多少? --需要根据小时hour进行分组 group by 分组之后统计每个组内的个数count --当下:group by(substring(time_local,12,2)) --缺点:每一条记录在分组之前 都需要进行所谓的截取操作 --原因:
阅读全文
摘要:网站流量日志分析的意义 通过分析用户的行为数据 让更多的用户沉淀下来变成会员 赚取更多的钱。 如何进行网站分析 流量分析 - 质量分析 在看重数量的同时 需要关注流量的质量 所谓的质量指的是流量所能带来产生的价值。 - 多维度细分 维度指的是分析的问题的角度 在不同的维度下 问题所展示的特性是不一样
阅读全文
摘要:数仓设计 维度建模 以维度为标准 开展数据的分析需求 适用于面向分析领域的理论。比如分析型数据库 数据仓库 数据集市(OLAP) 事实表 分析主题的客观事件度量 是分析主题的数据聚集 事实表中一条记录往往对应着客观的一个事件 往往是一堆主键的聚集 维度表 所谓的维度就是指看待问题的角度 可以通过不同
阅读全文
摘要:转载自 严阵以待 https://www.cnblogs.com/yanzhenyidai/p/13450965.html 上周客户说系统突然变得很慢,而且时不时的蹦出一个 404 和 500,弄得真的是很没面子,而恰巧出问题的时候正在深圳出差,所以一直没有时间 看问题,一直到今天,才算是把问题原因
阅读全文
摘要:| https://www.jianshu.com/p/87402c807278 http://sqoop.apache.org/
阅读全文
摘要:淘宝用户行为分析 数据分析实战.三 项目背景和数据 通过此项目学习电商数据分析的指标与数据分析的基本方法。 数据来源 阿里云天池数据库 数据描述 数据集介绍 文件名称 说明 包含特征 UserBehavior.csv 包含所有的用户行为数据 用户ID,商品ID,商品类目ID,行为类型,时间戳 Use
阅读全文
摘要:Kudu 的应用场景是什么? 设计一个项目,分析其特点,设计方案,选取最佳处理方案 需求:做一个类似物联网的项目, 可能是对某个工厂的生产数据进行分析 项目特点 1. 数据量大 - 有一个非常重大的挑战, 就是这些设备可能很多, 其所产生的事件记录可能也很大, 所以需要对设备进行数据收集和分析的话,
阅读全文
摘要:网站流量日志分析-01 网站流量日志分析的意义 通过分析用户的行为数据 让更多的用户沉淀下来变成会员 赚取更多的钱。 如何进行网站分析 流量分析 质量分析 在看重数量的同时 需要关注流量的质量 所谓的质量指的是流量所能带来产生的价值。 多维度细分 维度指的是分析的问题的角度 在不同的维度下 问题所展
阅读全文

浙公网安备 33010602011771号