上一页 1 ··· 58 59 60 61 62 63 64 65 66 ··· 119 下一页

2013年11月27日

MR for Baum-Welch algorithm

摘要: The Baum-Welch algorithm is commonly used for training a Hidden Markov Model because of its superior numerical stability and its ability to guarante... 阅读全文

posted @ 2013-11-27 21:30 代码王子 阅读(219) 评论(0) 推荐(0)

MR PAGERANK思路

摘要: map( key: [url, pagerank], value: outlink_list ) for each outlink in outlink_list emit( key: outlink, value: pagerank/size(outlink_list) )... 阅读全文

posted @ 2013-11-27 21:24 代码王子 阅读(149) 评论(0) 推荐(0)

using MR to compute PageRank

摘要: In this post I explain how to compute PageRank using the MapReduce approach to parallelization. This gives us a way of computing PageRank that can i... 阅读全文

posted @ 2013-11-27 21:22 代码王子 阅读(195) 评论(0) 推荐(0)

实现像百度一样的自动补全功能

摘要: import java.io.IOException; import java.io.Reader; import java.util.ArrayList; import java.util.HashMap; import java.util.Iterator; import java.ut... 阅读全文

posted @ 2013-11-27 21:19 代码王子 阅读(260) 评论(0) 推荐(0)

新手阅读大型代码库

摘要: Casey问我:“对于新手,有什么有针对性的诀窍来阅读大型代码库吗?” 碰巧,我认为这是一个非常好的问题。我觉得想要成为一个优秀的开发者,阅读代码库并弄清清楚内部是怎么回事的能力非常重要。在你的职业生涯中你会中途加入一个现有的项目并被要求迅速融入进去。或者,甚至更难,会有一个项目丢给你让你自... 阅读全文

posted @ 2013-11-27 16:05 代码王子 阅读(169) 评论(0) 推荐(0)

易信,不改难成大事

摘要: 微信 一家独大,称霸 智能手机市场的趋势,基本已经成型。 而最可怕的是,腾讯土豪的推广方式,不断扩大的应用服务。 这时候易信的退出本来是一个有力的竞争者,但易信真令人失望。 我们几个安装上就卸载了。 其实最为吸引人的方式就免流量,可是安装后,没有朋友聊天,我都不知道跟谁聊。 门槛高,限制广。让大... 阅读全文

posted @ 2013-11-27 14:07 代码王子 阅读(154) 评论(0) 推荐(0)

2013年11月26日

CRF资料

摘要: 与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注、中文分词、命名实体识别等)都有比较好的应用效果。条件随机场最早由John D. Lafferty提出,其也是Brown90的作者之一,和贾里尼克相... 阅读全文

posted @ 2013-11-26 20:38 代码王子 阅读(322) 评论(0) 推荐(0)

HBase Compaction

摘要: 当 client 向 hregion 端 put() 数据时, HRegion 会判断当前的 memstore 的大小是否大于参数hbase.hregion.memstore.flush.size 值,如果大于,则执行 flushcache() 操作,将 hregion 上的 memstore ... 阅读全文

posted @ 2013-11-26 09:11 代码王子 阅读(138) 评论(0) 推荐(0)

HBase 协处理器实现二级索引

摘要: HBase在0.92之后引入了coprocessors,提供了一系列的钩子,让我们能够轻易实现访问控制和二级索引的特性。下面简单介绍下两种coprocessors,第一种是Observers,它实际类似于触发器,第二种是Endpoint,它类似与存储过程。由于这里只用到了Observers,所... 阅读全文

posted @ 2013-11-26 09:11 代码王子 阅读(157) 评论(0) 推荐(0)

HBase 二级索引与Join

摘要: 二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。 这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary... 阅读全文

posted @ 2013-11-26 09:11 代码王子 阅读(258) 评论(0) 推荐(0)

上一页 1 ··· 58 59 60 61 62 63 64 65 66 ··· 119 下一页

导航