代码改变世界

电商大数据学习笔记:理论

2016-05-02 16:16  猎手家园  阅读(812)  评论(0编辑  收藏  举报

1、大数据部门:数据中心、数据平台、数据部……

2、每个部门都有:架构人员、数据分析人员、开发人员、运营人员……

3、团队:数据仓库组、BI组、架构组、数据专家组……

4、团队分的更细:需求组、推荐组、情报组、挖掘组、数据组、营销组……

5、大数据有哪些重要的项目:

1)数据仓库建设;

2)经营分析报表;

3)客户精准营销;

4)推荐系统;

5)移动端数据分析。

6、大数据有哪些重点方向:

   1)流量数据;

   2)交易数据;

   3)会员与活动数据;

   4)物流与配送数据;

   5)内部财务数据。

7、代表产品:淘宝数据魔方、腾讯用户画像、京东数据罗盘

8、企业的需求:

1)实时监控企业的运转情况;

2)决策未来的发展战略;

3)预测哪些是值得发展的优质客户。

   传统数据,分散、数据格式不一致不兼容、应用系统孤立。

   BI诞生,集成实时与历史数据,将分析转化为执行力。关键效益:洞察力和协同一致。

9、源数据库 à ODS à ETL à DW à DM à OLAP à Client

10、注意:BI是不产生决策的,它是提供给用户的是报表或图视,但是它不同于传统的静态报表,它可以任意旋转组合报表或图视,是当场计算。

11、数据仓库:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支撑管理决策。

主题:顾客、供应商等

集成:多个异种数据,统一集成在一起。
相对稳定:不更新,只添加。

反应历史变化:数据仓库记录的是一段时间的信息,不是一点的信息。

12、SCD问题处理方法?

13、ODS是什么,在数据仓库中起的作用?

14、ETL加载策略与举例?

15、事实表:保存了大量业务度量数据的表,事实表的度量值一般称为事实。例如:订单金额、销量等可度量的。

粒度:

1)事务粒度事实表:比如股票按秒来变化;

2)周期快照:按天、按周、按月等;

3)累积快照事实表:记录确定周期的数据;

4)原子事实表:细粒度事实表;

5)聚集事实表:汇总事实表;

6)合并事实表;

7)旋转事实表;

8)预连接聚集表;

9)非事实型事实表:没有确定的事实,存的是外键;

10)切片事实表:把一张大表切成一段时间的;

11)蜈蚣事实表:维度很多;

12)一致性事实。

16、数据集市:小数据仓库,面向部门。它是数据仓库的子集,一般只面向某个主题,缓解访问数据仓库的瓶颈。DM一般存储经过汇总的数据,数据都是经过很多加工后的表。

17、元数据:是关于数据的数据,可以看作是数据仓库系统的“数据字典”,但是这个字典比传统意义上的数据字典强大。他可以帮助管理员和开发人员方便找到他们所关系的数据,并告诉用户数据仓库中有哪些数据,这些数据从哪里来。

   分为技术元数据和业务/商业元数据。

18、ETL是将业务系统的数据经过抽取(Extract)清洗转换(Transform)之后加载(Load)到数据仓库的过程。

19、OLAP是联机分析处理,它可以满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”,因此OLAP也可以说是多维数据分析工具的集合。

20、维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。如:时间维、地理维等。

21、维度表:可以看作是用户分析数据的窗口,维度表包含事实数据表中事实记录的特性。

事实表与维表的关系如下图:

粒度:数据细化的级别,粒度越细,数据量越大,存储所需的空间越大,查询性能越慢。

层次:举例如:国家-省-市-县等;年-季-月-周-日。

三种模型:星形模型、雪花模型和多维模型。

星形模型如下图:它的维度表没有被新的表连接

22、建模的一般过程

1)确定业务过程每个事实表的粒度;

2)确定维度属性;

3)确定维度层次;

4)确定每个事实所需要关联的维度;

5)确定数字型事实,包括预先计算的;

6)确定缓慢变化维:一种是直接覆盖,另一种是保留历史产品的维度,即追加。

23、

24、数据抽取与装载策略

抽取:每天凌晨会把昨天的数据抽取一份放入数据仓库中,所以数据是T+1的。

1)抽取分为全量抽取和增量数据。小表全量,大表增量。

2)增量抽取可以通过时间戳来控制。

3)每次抽取近一个月有变更的数据,然后和目标表做全外关联得到最新的数据。

4)注意:不要用其它的表的时间戳来控制自己增量。

装载:将落地的文件装入到Hive数据表中。注意字段的顺序,极其重要。

抽取装载:一般使用sqoop来完成。