2013年11月24日

HBase replication使用

摘要: hbase-0.90.0的一个重要改进是引入了replication机制,使它的数据完整性得到了进一步的保障。虽然这一功能还不太完善,但是今后必然会变得更加重要。 hbase的replication机制很像mysql statement-based replication。它是通过WALEdi... 阅读全文

posted @ 2013-11-24 22:24 代码王子 阅读(216) 评论(0) 推荐(0)

HBase 索引创建

摘要: 本文参考了文“mysql索引背后的数据结构及算法原理”,之所以还要摘录,主要是为了形成hbase索引研究的开篇,弄明白什么索引的本质,如有版权问题,请及时通知。 索引的本质 索引是帮助mysql高效获取数据的数据结构。索引属于数据结构的一种。 在数据之外,数据库系统还维护着满足特定查找算法的数据... 阅读全文

posted @ 2013-11-24 17:21 代码王子 阅读(473) 评论(0) 推荐(0)

HBase Region级别二级索引

摘要: 我们会经常谈及二级索引,这是对全表数据进行另外一种方式的组织存储,是针对table级别的。如果要为HBase上的表实现一个强一致性的二级索引,那么就无法逃避分布式事务,而这一直是用户最期待的功能。 而即使只需要保证最终一致性,这个索引也并不好实现,因为你需要额外的表以存储过程数据,需要解决宕机恢... 阅读全文

posted @ 2013-11-24 17:20 代码王子 阅读(195) 评论(0) 推荐(0)

HBase快照

摘要: CDH是Cloudera的完全开源分布式Apache Hadoop及相关项目(包括Apache HBase)。CDH的当前版本(4.2)引入的一个HBase新特性最近加入到了主干中,允许用户对指定表进行快照。 在CDH4.2之前,唯一能够备份或克隆表的方法就是使用复制/导出表或者在关闭表之后... 阅读全文

posted @ 2013-11-24 17:18 代码王子 阅读(182) 评论(0) 推荐(0)

HBase BlockCache

摘要: 1. Cache 读写 调用逻辑: hmaster.handleCreateTable->HRegion.createHRegion-> HRegion. initialize->initializeRegionInternals->instantiateHStore ->Store.St... 阅读全文

posted @ 2013-11-24 17:16 代码王子 阅读(160) 评论(0) 推荐(0)

HBase事务

摘要: 众所周知,ACID是指原子性(Atomicity),一致性(Consistency),隔离性(Isolation)和持久性(Durability)。 HBase对同一行数据的操作提供ACID保证。HBASE-3584支持多操作事务,HBASE-5229支持多行事务,但原理都是一样的。 那么... 阅读全文

posted @ 2013-11-24 17:15 代码王子 阅读(933) 评论(0) 推荐(0)

HBase Master 启动

摘要: –>首先初始化HMaster –>创建一个rpcServer,其中并启动 –>启动一个Listener线程,功能是监听client的请求,将请求放入nio请求队列,逻辑如下: –>创建n个selector,和一个n个线程的readpool,n由”ipc.server.read.threadpoo... 阅读全文

posted @ 2013-11-24 17:13 代码王子 阅读(278) 评论(0) 推荐(0)

Stripe Compaction

摘要: 借鉴于LevelDB、Cassandra的Compaction方法,https://issues.apache.org/jira/browse/HBASE-7667 提出了Stripe Compaction的方法。 Motivation: 1)过多Region会增大RS维护的开销,降低RS的... 阅读全文

posted @ 2013-11-24 17:11 代码王子 阅读(229) 评论(0) 推荐(0)

HBase Split

摘要: HBase 的 Split过程是一个较为重要的过程,牵扯到许多东西。 Client 1. HBaseAdmin.split 2. 判断split的是Region还是Table 3. 调用HBaseAdmin.split(final ServerName sn, final HRegion... 阅读全文

posted @ 2013-11-24 17:09 代码王子 阅读(370) 评论(0) 推荐(0)

LSM-tree

摘要: 论文 The Log-Structure Merge-Tree(LSM-tree)(http://www.google.com.my/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&cad=rja&ved=0CDoQFjAD&url=http%3A%2F%2Fc... 阅读全文

posted @ 2013-11-24 17:07 代码王子 阅读(330) 评论(0) 推荐(0)

HBase协处理器

摘要: 1.起因(Why HBase Coprocessor) HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的( protocol, byte[] row) 。rigons区域:HTableInterface.copro... 阅读全文

posted @ 2013-11-24 17:02 代码王子 阅读(229) 评论(0) 推荐(0)

HBase学习资源

摘要: 教程 《HBase.Administration.Cookbook》 中文版《HBase管理指南》 《HBase in action》 《HBase权威指南》 Reference Guide 中文版 中文参考指南 HBase近期的发展及实践.pdf 小米hadoop/hbase微实践.p... 阅读全文

posted @ 2013-11-24 16:57 代码王子 阅读(171) 评论(0) 推荐(0)

SVM

摘要: 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。 一、数学部分 1.1二维空间 支持向量机的典型应用是分类,用于解决这样的问题... 阅读全文

posted @ 2013-11-24 16:49 代码王子 阅读(176) 评论(0) 推荐(0)

Aho-Corasick算法学习

摘要: 1、概述 Aho-Corasick自动机算法(简称AC自动机)1975年产生于贝尔实验室。该算法应用有限自动机巧妙地将字符比较转化为了状态转移。此算法有两个特点,一个是扫描文本时完全不需要回溯,另一个是时间复杂度为O(n),时间复杂度与关键字的数目和长度无关。 好了,我们先看下最原始的多模式匹配... 阅读全文

posted @ 2013-11-24 16:46 代码王子 阅读(355) 评论(0) 推荐(0)

Boyer-Moore算法

摘要: 1、概述 在用于查找子字符串的算法当中,BM(Boyer-Moore)算法是目前相当有效又容易理解的一种,一般情况下,比KMP算法快3-5倍。 BM算法在移动模式串的时候是从左到右,而进行比较的时候是从右到左的。 常规的匹配算法移动模式串的时候是从左到右,而进行比较的时候也是是从左到右的,基本框... 阅读全文

posted @ 2013-11-24 16:45 代码王子 阅读(281) 评论(0) 推荐(0)

Apriori和FPTree

摘要: Apriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法,处理的都是最简单的单层单维布尔关联规则。 Apriori算法 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。是基于这样的事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,... 阅读全文

posted @ 2013-11-24 16:43 代码王子 阅读(381) 评论(0) 推荐(0)

朴素贝叶斯与贝叶斯网络

摘要: 贝叶斯分类是统计学分类方法。它们可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。 贝叶斯定理是就是在给定的数据概率来表示未知的后验概率。比如已知某水果是红色的情况下,判断该水果有多大的概率是苹果,用数学符号表示就是(后验概率),其中X表示“这个水果是红色的”,H表示“这个水果是苹果... 阅读全文

posted @ 2013-11-24 16:40 代码王子 阅读(515) 评论(0) 推荐(0)

模拟退火算法

摘要: 一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。 爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一定... 阅读全文

posted @ 2013-11-24 16:37 代码王子 阅读(273) 评论(0) 推荐(0)

特征选择算法

摘要: 1 综述 (1)什么是特征选择 特征选择 ( FeatureSelection )也称特征子集选择(Feature Subset Selection , FSS ) ,或属性选择( AttributeSelection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2... 阅读全文

posted @ 2013-11-24 16:35 代码王子 阅读(1038) 评论(0) 推荐(0)

遗传算法编程

摘要: 遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。 一.进化论知识 作为遗传算法生物背景的介绍,下面内容了解即可: ... 阅读全文

posted @ 2013-11-24 16:35 代码王子 阅读(632) 评论(0) 推荐(0)

导航