摘要:
数据预处理 在正式处理数据之前对收集的数据进行预先处理的操作。 原因:不管通过何种手段收集的数据 往往是不利于直接分析的 数据中存在的格式规整的差异。 目的:把不干净的数据 格式不规则的数据 通过预处理清洗变成格式统一规整的结构化数据 技术:MapReduce 预处理的编程思路问题 在使用mr编程的 阅读全文
posted @ 2020-08-10 17:15
园狐
阅读(707)
评论(0)
推荐(1)
摘要:
网站流量日志分析的意义 通过分析用户的行为数据 让更多的用户沉淀下来变成会员 赚取更多的钱。 如何进行网站分析 流量分析 - 质量分析 在看重数量的同时 需要关注流量的质量 所谓的质量指的是流量所能带来产生的价值。 - 多维度细分 维度指的是分析的问题的角度 在不同的维度下 问题所展示的特性是不一样 阅读全文
posted @ 2020-08-10 16:38
园狐
阅读(2726)
评论(0)
推荐(0)
摘要:
数仓设计 维度建模 以维度为标准 开展数据的分析需求 适用于面向分析领域的理论。比如分析型数据库 数据仓库 数据集市(OLAP) 事实表 分析主题的客观事件度量 是分析主题的数据聚集 事实表中一条记录往往对应着客观的一个事件 往往是一堆主键的聚集 维度表 所谓的维度就是指看待问题的角度 可以通过不同 阅读全文
posted @ 2020-08-10 15:55
园狐
阅读(887)
评论(0)
推荐(0)
摘要:
beeline 连接报错 后台启动 nohup bin/hive --service hiveserver2 > /dev/null 2>&1 & bin/beeline !connect jdbc:hive2://node01:10000 Could not open connection to 阅读全文
posted @ 2020-08-10 09:46
园狐
阅读(790)
评论(0)
推荐(0)