基于Hadoop + Hive框架进行电子商务数据分析
大数据研究背景及意义
大数据研究背景
中国近几年电子商务的井喷式发展,各服务行业领域体系扩展深化都有大数据的身影,电商行业的交易额更是不断创下新纪录。各环节的“专业化”的数据处理和提取潜藏的数据价值将是互联网行业决策支持的重要导向,传统的数据库已无法处理高达TB的数据,数据的收集,存储,处理,类型转换和分析隐含的价值数据是企业必须解决的首要问题。因此,企业顺应时代的发展不断的涌现分布式存储分析的大数据技术平台。
大数据研究意义
海量数据的产生对企业和市场影响巨大,政策决策和市场运营准带来了严峻挑战。大数据潜藏的价值不仅影响未来的科技发展,还对市场经济管理有着重要谐调。因此,与实体经济融为一体功能创新能力日益增强的大数据平台已成为中国经济发展的新引擎阶段。传统产业转型升级将是大数据的体现,人工智能的发展将是引领时代潮流发展的新引擎。
数仓搭建
数据仓库维度模型设计
维度模型是数据仓库建模中最受欢迎的模型之一。维度建模要根据事实表的需求构建。建立的数据模型拥有高效快速的分析能力和快速响应的复杂查询。维度建模是一种用于分析数据仓库的建模方法。
事实表
事实表:业务不断产生的一组每个ID都对应于维表中的一条记录主键不存储实际内容数据。事实表关联的每个维度表所有外键。事实表的字段代表分析事务的度量值。事实表中的每行数据代表一个业务事件,例如一个购买行为可以理解是一个事实。
维度表
每个包含低粒度文本属性宽、平、非标准维度表都关联事实表的外键。一般是对事实描述信息的表。每一张维表对应一个对象或者概念。数据仓库可以反范式的原则设计。事实表记录历史信息,而维度表记录描述历史信息的主题。
维度建模三种模式
星型模型
星型图式是最常用的维度建模方法。星型模式位于事实表的中心,所有维表都像星一样直接链接到事实表。一个事实表和一层维度,维度的外键只能连接事实表。
雪花模式
雪花模式是星形模式的扩展。雪花模式下的维表可以具有其他维表。该模型比星形模型更加标准化,但更难于理解且维护成本更高。此外,性能应与多层维表相关联,并且性能应低于星型。因此,它并不常用。
星座模式
星座模式是基于一个事实表的星形模式的扩展,而星座模式则基于共享维度信息的多个事实表。
上面提到的二维建模方法是对应于单个事实表的多维表,但是在大多数情况下,一个维度空间中有多个事实表,并且可以在多个事实表中使用一个维度表。在业务开发的后期阶段,大多数维建模都使用星座模型。
页面展示
据日期统计,每日订单总额(趋势图)

根据日期、渠道统计订单总额(Sunburst Chart)

根据日期、区域统计订单总额(数据透视表)

根据日期、区域、渠道、产品统计订单数、订单总额(层级环图)

商品详情指标看板

获取方式
v:l18923403603

浙公网安备 33010602011771号