zourui4271

博客园 首页 新随笔 联系 订阅 管理

2016年5月3日 #

摘要: (1)Hive数据库 类似传统数据库的DataBase,在第三方数据库里实际是一张表。简单示例命令行 hive > create database test_database; (2)内部表 Hive的内部表与数据库中的Table在概念上是类似。每一个Table在Hive中都有一个相应的目录存储数据 阅读全文
posted @ 2016-05-03 16:06 zourui4271 阅读(327) 评论(0) 推荐(0)

摘要: 什么是列存储?列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因 此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,一个字段的数据聚集存储,那就 更容易为 阅读全文
posted @ 2016-05-03 16:05 zourui4271 阅读(219) 评论(0) 推荐(0)

摘要: 早期的数据仓库构建思想是将所有能得到的数据都放入数据仓库,随着信息的爆炸,数据仓库的尺寸开始变得不可接受。有两种方法可以解决这个问题,一个是数据过滤减少进入数据仓库的数据,另一个就是通过合理的设计减小数据仓库存储空间。本文简单讨论一下第二种方法。 在维度建模的设计中,维度表占用的空间相比事实表要小很 阅读全文
posted @ 2016-05-03 14:55 zourui4271 阅读(271) 评论(0) 推荐(0)

摘要: 在维度建模的数据仓库中,客户维度通常是最有挑战性的维度。一般来说,客户维度有如下三个特点,记录很多,有可能有百万数量级;属性很多,有可能几十或者上百;缓慢变化,有时变化也很快。 对于建立基于Web环境的数据仓库来说,客户维度表中通常有两类客户,一类是没有注册过的访问者,另一类是注册过的客户。未注册的 阅读全文
posted @ 2016-05-03 14:47 zourui4271 阅读(1111) 评论(0) 推荐(0)

摘要: 什么是代理键?简述代理键替换管道如何工作。 答:在维度表的迁移过程中,有一种处理方式是使用无意义的整型值分配给维度记录并作为维度记录的主键,这些作为主键的整型值称为代理键(Surrogate Key)。使用代理键有很多好处,如隔离数据仓库与操作环境,历史记录的保存,查询速度快等。 同时,在事实表的迁 阅读全文
posted @ 2016-05-03 14:30 zourui4271 阅读(283) 评论(0) 推荐(0)

摘要: 维度建模的数据仓库中,有一种维度叫minidimension,中文一般翻译成“微型维度”。微型维度的提出主要是为了解决快变超大维度(rapidly changing monster dimension)。 以客户维度举例来说,如果维度表中有数百万行记录或者还要多,而且这些记录中的字段又经常变化,这样 阅读全文
posted @ 2016-05-03 14:19 zourui4271 阅读(722) 评论(0) 推荐(0)

摘要: 简述如何评估大型ETL数据加载时间。 答:评估一个大型的ETL的数据加载时间是一件很复杂的事情。数据加载分为两类,一类是初次加载,另一类是增量加载。 在数据仓库正式投入使用时,需要进行一次初次加载,而这次初次加载需要的时间一般较难预料。在数据仓库的日常使用和维护中,每天需要对数据仓库进行增量加载。增 阅读全文
posted @ 2016-05-03 11:39 zourui4271 阅读(364) 评论(0) 推荐(0)