随笔分类 - 大数据
hadoop hive hbase
摘要:1、创建test,如果存在先删除hbase(main):010:0> disable 'test'0 row(s) in 1.4250 secondshbase(main):011:0> drop 'test'0 row(s) in 0.5540 secondshbase(main):012:0> ...
阅读全文
摘要:获取内容:/** * * @param zkIp * @param zkPort * @param tablename * @param startRow 传null扫全表 * @param stopRow 已~结尾 * @throws ...
阅读全文
摘要:一、基本概念 hive中分区表分为:范围分区、列表分区、hash分区、混合分区等。 分区列:分区列不是表中的一个实际的字段,而是一个或者多个伪列。翻译一下是:“在表的数据文件中实际上并不保存分区列的信息与数据”,这个概念十分重要,要记住,后面是经常用到。1.1 创建数据表 下面的语句创建了一个简单的...
阅读全文
摘要:ACID在传数据库系统中,事务具有ACID 4个属性。(1) 原子性(Atomicity):事务是一个原子操作单元,其对数据的修改,要么全都执行,要么全都不执行。(2) 一致性(Consistent):在事务开始和完成时,数据都必须保持一致状态。这意味着所有相关的数据规则都必须应用于事务的修改,以保...
阅读全文
摘要:为什么要对数据仓库分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个...
阅读全文