大数据 - 随笔分类(第2页) - 李秋

Hbase 命令小结

摘要：1、创建test，如果存在先删除hbase(main):010:0> disable 'test'0 row(s) in 1.4250 secondshbase(main):011:0> drop 'test'0 row(s) in 0.5540 secondshbase(main):012:0> ... 阅读全文

posted @ 2014-11-30 14:09 李秋阅读(370) 评论(0) 推荐(0)

JAVA操作Hbase

摘要：获取内容：/** * * @param zkIp * @param zkPort * @param tablename * @param startRow 传null扫全表 * @param stopRow 已~结尾 * @throws ... 阅读全文

posted @ 2014-11-24 11:38 李秋阅读(291) 评论(0) 推荐(0)

hive中简单介绍分区表(partition table)——动态分区(dynamic partition)、静态分区(static partition)

摘要：一、基本概念 hive中分区表分为：范围分区、列表分区、hash分区、混合分区等。分区列：分区列不是表中的一个实际的字段，而是一个或者多个伪列。翻译一下是：“在表的数据文件中实际上并不保存分区列的信息与数据”，这个概念十分重要，要记住，后面是经常用到。1.1 创建数据表下面的语句创建了一个简单的... 阅读全文

posted @ 2014-11-13 18:45 李秋阅读(8865) 评论(0) 推荐(0)

ACID、Data Replication、CAP与BASE

摘要：ACID在传数据库系统中，事务具有ACID 4个属性。(1) 原子性（Atomicity）：事务是一个原子操作单元，其对数据的修改，要么全都执行，要么全都不执行。(2) 一致性（Consistent）：在事务开始和完成时，数据都必须保持一致状态。这意味着所有相关的数据规则都必须应用于事务的修改，以保... 阅读全文

posted @ 2014-10-11 13:59 李秋阅读(439) 评论(0) 推荐(0)

数据仓库数据分层

摘要：为什么要对数据仓库分层？用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据；如果不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗过程，工作量巨大通过数据分层管理可以简化数据清洗的过程，因为把原来一步的工作分到了多个步骤去完成，相当于把一个... 阅读全文

posted @ 2014-10-09 16:49 李秋阅读(8850) 评论(2) 推荐(2)

随笔分类 - 大数据