2017 年 8月 6 日随笔档案 - Holyz

摘要：数据采集的时效性,指的是可进行数据采集的时间与Hadoop中工具可访问数量的时间之间的间隔.采集架构的时间分类会对存储媒介和采集方法造成很大的影响.一般来说,在设计应用的采集构架之前建议使用以下分类中的一种.大型批处理通常指15分钟到数小时的任务,有时可... 阅读全文

posted @ 2017-08-06 14:16 Holyz 阅读(551) 评论(0) 推荐(0)

摘要：元数据的重要性三个重要理由,让我们不得不在意元数据元数据允许用户通过一张表的高一级逻辑抽象,而不是HDFS中文件的简单几何,或者HBase中的表来与数据交互.这意味着用户不比关心数据是如何存储的,存储到了什么地方元数据允许用户提供数据的信息(如分区或者排... 阅读全文

posted @ 2017-08-06 13:57 Holyz 阅读(182) 评论(0) 推荐(0)

摘要： HBase中包含列簇(column family)的概念.列簇本质上是列的存储容器.一张表可以有一个或多个列簇.每个列簇都有自己的HFile结婚,而且在执行合并操作时,同一个表的其他列簇不受影响在很多实用案例中,一张表不需要多个列簇.如果一张标中国的一部分列... 阅读全文

posted @ 2017-08-06 12:02 Holyz 阅读(510) 评论(0) 推荐(0)

摘要：影响性能与数据分布的一个因素是HBase中表的数量以及每个表的Region的数量.如果分配的不合理,集群一个节点活多个节点的负载会出现显著的不均衡.其中比较注意的几点: - 每个节点包含一个Region服务器 - 每个Region服务器包含多个Region ... 阅读全文

posted @ 2017-08-06 11:40 Holyz 阅读(324) 评论(0) 推荐(0)

摘要：要获得良好的HBase的模式设计,要正确的理解和使用时间错.在HBase中,时间戳的作用如下所述.时间戳决定了在put请求修改记录时那些记录更新时间戳决定了一条记录的多个版本在返回时的排序时间戳还用于大合并(Major Compaction)过程,决定是否移... 阅读全文

posted @ 2017-08-06 11:27 Holyz 阅读(484) 评论(0) 推荐(0)