2013年11月26日

CRF资料

摘要: 与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注、中文分词、命名实体识别等)都有比较好的应用效果。条件随机场最早由John D. Lafferty提出,其也是Brown90的作者之一,和贾里尼克相... 阅读全文

posted @ 2013-11-26 20:38 代码王子 阅读(322) 评论(0) 推荐(0)

HBase Compaction

摘要: 当 client 向 hregion 端 put() 数据时, HRegion 会判断当前的 memstore 的大小是否大于参数hbase.hregion.memstore.flush.size 值,如果大于,则执行 flushcache() 操作,将 hregion 上的 memstore ... 阅读全文

posted @ 2013-11-26 09:11 代码王子 阅读(138) 评论(0) 推荐(0)

HBase 协处理器实现二级索引

摘要: HBase在0.92之后引入了coprocessors,提供了一系列的钩子,让我们能够轻易实现访问控制和二级索引的特性。下面简单介绍下两种coprocessors,第一种是Observers,它实际类似于触发器,第二种是Endpoint,它类似与存储过程。由于这里只用到了Observers,所... 阅读全文

posted @ 2013-11-26 09:11 代码王子 阅读(157) 评论(0) 推荐(0)

HBase 二级索引与Join

摘要: 二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。 这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary... 阅读全文

posted @ 2013-11-26 09:11 代码王子 阅读(258) 评论(0) 推荐(0)

HBase Muti-Master

摘要: 为了保证HBase集群的高可靠性,HBase支持多Backup Master 设置。当Active Master挂掉后,Backup Master可以自动接管整个HBase的集群。 该配置极其简单: 在$HBASE_HOME/conf/ 目录下新增文件配置backup-masters,在其内添加... 阅读全文

posted @ 2013-11-26 09:10 代码王子 阅读(144) 评论(0) 推荐(0)

NOSQL schema创建原则

摘要: (1)数据规模 Bigtable类数据库系统(HBase,Cassandra等)是为了解决海量数据规模的存储需要设计的。这里说的海量数据规模指的是单个表存储的数据量是在TB或者PB规模,单个表是由千亿行*千亿列这样的规模组成的。提到这个数据规模的问题,不得不说的就是现在在NoSQL市场中,最... 阅读全文

posted @ 2013-11-26 09:10 代码王子 阅读(300) 评论(0) 推荐(0)

HBase flush

摘要: flush触发方式 1. Server端执行更新操作(put、delete、multi(MultiActionmulti)、(private)checkAndMutate、mutateRow (byte[] regionName, RowMutations rm))执行前后触发内存检查 操作... 阅读全文

posted @ 2013-11-26 09:09 代码王子 阅读(365) 评论(0) 推荐(0)

阅读源码

摘要: 编者按:原文作者Alan Skorkin是一名软件开发人员,他在博客中分享对软件开发相关的心得,其中有很多优秀的文章,本文是其中的另一篇。Alan认为:阅读优秀代码是提高开发人员修为的一种捷径。以下是全文。 我突然想起来,很多程序员都讨厌阅读代码。来吧,承认吧! 每个人都喜欢编写代... 阅读全文

posted @ 2013-11-26 09:09 代码王子 阅读(133) 评论(0) 推荐(0)

HBase行锁

摘要: 1 行锁简介 在事务特性方面,hbase只支持单row的事务,不能保证跨row(cross-row)的事务。hbase通过行锁来实现单row事务。客户端进行操作时,可以显式对某一个行加锁,但是大部分情况下是没有必要的,因为如果没有显式的加行锁,hbase在内部会默认的加行锁。为了描述方便,用户... 阅读全文

posted @ 2013-11-26 09:08 代码王子 阅读(1349) 评论(0) 推荐(0)

hadoop运维

摘要: 在实际的生产环境运维一个Hadoop集群有一些必须要关注的事情。 1、Namenode的高可靠性 2、节点配置与管理 3、Mapreduce的内存配置 4、启用trash 首要的是保证数据安全可靠,其次再去考虑存储效率、计算效率、运维效率的优化与提高,当你觉得Hadoop集群的性能太差太差... 阅读全文

posted @ 2013-11-26 09:08 代码王子 阅读(220) 评论(0) 推荐(0)

HBase Master启动过程

摘要: master启动过程: -->首先初始化HMaster -->创建一个rpcServer,其中并启动 -->启动一个Listener线程,功能是监听client的请求,将请求放入nio请求队列,逻辑如下: -->创建n个selector,和一个n个线程的readpool,n由"ipc.ser... 阅读全文

posted @ 2013-11-26 09:08 代码王子 阅读(441) 评论(0) 推荐(0)

bulk-load 装载HDFS数据到HBase

摘要: bulk-load的作用是用mapreduce的方式将hdfs上的文件装载到hbase中,对于海量数据装载入hbase非常有用,参考http://hbase.apache.org/docs/r0.89.20100621/bulk-loads.html: hbase提供了现成的程序将hdfs上的... 阅读全文

posted @ 2013-11-26 09:07 代码王子 阅读(166) 评论(0) 推荐(0)

HBase开启LZO

摘要: hbase只支持对gzip的压缩,对lzo压缩支持不好。在io成为系统瓶颈的情况下,一般开启lzo压缩会提高系统的吞吐量。但这需要参考具体的应用场景,即是否值得进行压缩、压缩率是否足够等等。 想要hbase支持lzo压缩,参照以下步骤: 1 首先要让系统支持lzo动态库,安装lzo-2.00以... 阅读全文

posted @ 2013-11-26 09:07 代码王子 阅读(170) 评论(0) 推荐(0)

导航