医疗项目ETL流程概括
软件版本
你们的工作平台是hadoop是什么版本, 数据源是oracle mysql什么版本, 端口
hadoop(3.1.3) 公司定制版本:cdh(6)
oracle——— 11g 端口:1521
MySQL——5.6 端口:3306
什么是关系型数据库, 什么是NOSQL数据库
NoSQL = Not only SQL,非关系型数据库
- 关系数据库:是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。简单说来就是关系型数据库用了选择、投影、连接、并、交、差、除、增删查改等数学方法来实现对数据的存储和查询。可以用SQL语句方便的在一个表及其多个表之间做非常复杂的数据查询。安全性高。(关系型数据库是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。简单说,关系型数据库是由多张能互相连接的表组成的数据库。)
- 非关系型数据库:简称NOSQL,是基于键值对的对应关系,并且不需要经过SQL层的解析,所以性能非常高。但是不适合用在多表联合查询和一些较复杂的查询中。NoSQL用于超大规模数据的存储。(非关系型数据库又被称为 NoSQL(Not Only SQL ),意为不仅仅是 SQL。通常指数据以对象的形式存储在数据库中,而对象之间的关系通过每个对象自身的属性来决定)
http://c.biancheng.net/view/7122.html 优劣性的对比 - oracle和mysql区别
Oracle数据库是一个对象关系数据库管理系统(ORDBMS)
MySQL是一个开源的关系数据库管理系统(RDBMS)
1、Oracle数据库是一个对象关系数据库管理系统,要收费;MySQL是一个开源的关系数据库管理系统,是免费的;2、数据库安全性的区别;3、对象名称的区别;4、临时表处理方式上的区别等等。
https://www.php.cn/mysql-tutorials-413588.html
什么是ER图, 事实表, 维度表
er图—— 设计设计库的蓝图,以思维导图的形式将字段展现出来
事实表——明细表(数据表):即为事实数据表的简称。主要特点是含有大量的数据,并且这些数据是可以汇总,并被记录的。
维度表——分类表 :维度表可以看作是用户来分析数据的窗口,维度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构
系统有多少个主题, 每个主题有什么指标, 你做了什么主题和指标
共10个主题(销售,店铺,库存,商品,会员,商采,财务,折损,促销,线上活动)
我做了会员主题,指标(会员数,新增会员数,有效会员数,有效会员占比,新增有效会员数,新增有效会员比,流失会员数,新增流失会员,流失有效会员数,流失有效会员占比,净增有效会员数,活跃会员数,危险会员数,店均有效会员数,会员含税销售收入,会员收入占比,会员消费次数,会员来客数,会员来客数占比,会员客单价,会员客单价比,会员消费频次,会员复购率,)
项目是从什么开始的, 目前是几期
2019年开始的,目前处于后期上线
上游系统有哪些 下游系统有哪些
上游系统:erp(海典,雨诺,英克),oa
下游系统:报表平台
上游就是有ERP系统(企业管理系统)客户分析的系统(CRM)等
下游一般是数瓴BI报表展示平台
数据的流程是怎么样的, 有几个数据分层, 通过什么工具到哪一层, 每一数据分层的职责是什么? 最后会到哪里
通过datax工具从业务系统抽取数据到ods层,
再通过hivesql清洗放入dwb层再加工导入dm层
最后再通过工具datax导出至数据应用层(app)。
ods:用来存源数据的
dwd:解析,清洗数据
dm:数据仓库,存放清洗后的数据
什么是数据建模, powerdesigner软件
数据建模指的是把各类数据的数据类型,数据特点,根据业务特点和需求进行分类等直至转化成现实的数据库。 在visio或erwin等工具建立成数据库中的表和表雨表之间的关系(实体一般是表)
浙公网安备 33010602011771号