摘要: 数据元 定义: 用一组属性描述定义、标识、表示和允许值的数据单元。 数据的基本单元。 每个数据元的确切含义需要通过一系列属性来说明,包括数据的定义、标识、表示方法和管理等 通过定义、标识、表示以及允许值等一系列属性(元数据)描述的数据单元,被认定为是不可再分的最小的数据单元。 数据元一般来说由三部分 阅读全文
posted @ 2021-03-15 18:22 苏su 阅读(770) 评论(0) 推荐(0) 编辑
摘要: Volume(大体量) 即可从数百TB到数十数百PB、甚至EB的规模Variety(多样性) 即大数据包括各种格式和形态的数据Velocity(时效性) 即很多大数据需要在一定的时间限度下得到及时处理Veracity(准确性) 即处理的结果要保证一定的准确性Value(大价值) 即大数据包含很多深度 阅读全文
posted @ 2021-01-18 17:20 苏su 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 数据仓库&面试总结 转自:https://zhuanlan.zhihu.com/p/145087259 一、数据仓库分为几层?负责什么职责?为什么要分层? 1、数据仓库分为4层: ODS层 (原始数据层) DWD层 (明细数据层) DWS层 (服务数据层) ADS层 (数据应用层) 2、主要负责职责 阅读全文
posted @ 2021-01-18 17:16 苏su 阅读(376) 评论(1) 推荐(1) 编辑
摘要: 第一步:安装apacheyum install -y httpd第二步:安装mariadbyum install -y mariadb-server mariadb第三步:安装phpyum install -y php第四步:将php与mysql关联起来yum install php-mysql第五 阅读全文
posted @ 2020-12-28 15:54 苏su 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 可行性分析是通过对项目的主要内容和配套条件,如市场需求、资源供应、建设规模、工艺路线、设备选型、环境影响、资金筹措、盈利能力等,从技术、经济、工程等方面进行调查研究和分析比较,并对项目建成以后可能取得的财务、经济效益及社会环境影响进行预测,从而提出该项目是否值得投资和如何进行建设的咨询意见,为项目决 阅读全文
posted @ 2020-12-23 10:18 苏su 阅读(537) 评论(0) 推荐(0) 编辑
摘要: -- 建表 CREATE TABLE <表名> ( <列名><数据类型>[列级完整性约束条件] ,<列名><数据类型>[列级完整性约束条件] ,<列名><数据类型>[列级完整性约束条件]... [,<表级完整性约束条件>] ); 列级完整性约束条件:-- NULL(空)-- UNIQUE(取值唯一) 阅读全文
posted @ 2020-11-05 16:46 苏su 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 1、 on条件是在生成临时表时使用的条件,它不管and中的条件是否为真,都会返回左边表中的记录。 2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join的含义(必须返回左表的记录)了,条件不为真的就全部过滤掉。 现在有表a和表b id name 1 a 2 b 阅读全文
posted @ 2020-09-17 14:52 苏su 阅读(3808) 评论(0) 推荐(0) 编辑
摘要: 创建作业及运行 1)ORACLE 到 ODPS 任务 例:从 ORACLE 读取数据到 ODPS $ cd {YOUR_DATAX_HOME}/job $ vi ora_odps.json { "job": { "setting": { "speed": { "channel": "5" } }, 阅读全文
posted @ 2020-09-03 16:24 苏su 阅读(518) 评论(0) 推荐(0) 编辑
摘要: 1.mysql->mysql(完全同字段数据同步) 当然,实际此种情况当然可以选择navicat 1)打开spoon,连接资源库(推荐) 2)新建转换,之后在主对象树新建数据库连接并右键共享(统一数据源管理) 3)拖入一个表输入,配置连接信息,获取SQL语句,完成表输入配置(无变量情况) 4)拖一个 阅读全文
posted @ 2020-09-03 16:01 苏su 阅读(290) 评论(0) 推荐(0) 编辑
摘要: ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。 一.抽取 方法有三种: 1、利用工具,例如kettle,dataX,Informatica 等。。。 2、利用存储过程. 3、前两种工具结合. 抽 阅读全文
posted @ 2020-09-03 15:26 苏su 阅读(773) 评论(1) 推荐(0) 编辑