上一页 1 ··· 57 58 59 60 61 62 63 64 65 ··· 119 下一页

2013年12月2日

hadoop小知识札记

摘要: hadoop实现全局变量: 只读的可以,可修改的不行,只读的可以通过configuration 或者分布式缓存实现。 hadoop做图像处理时,每个map读入一个图片,每个map读入一张图片,然后所有的map还要读取一张全局图片再两张图片一起处理 每个map读取一个,会产生太多的map,... 阅读全文

posted @ 2013-12-02 16:29 代码王子 阅读(89) 评论(0) 推荐(0)

2013年11月29日

抽取网页中的主要内容

摘要: 抽取网页中的主要内容,是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。 String content = ArticleExtractor.INSTANCE.getText(new URL("https://www.google.com.hk/#ne... 阅读全文

posted @ 2013-11-29 17:16 代码王子 阅读(158) 评论(0) 推荐(0)

Hadoop Bloom Filter 使用

摘要: 1.Bloom Filter 默认的 BloomFilter filter =new BloomFilter(10,2,1); // 过滤器长度为10 ,用2哈希函数,MURMUR_HASH (1) Key key =new Key("hadoop".getBytes()... 阅读全文

posted @ 2013-11-29 15:55 代码王子 阅读(617) 评论(0) 推荐(0)

Bloom filter 2

摘要: 1 Bloom filter 计算方法 如需要判断一个元素是不是在一个集合中,我们通常做法是把所有元素保存下来,然后通过比较知道它是不是在集合内,链表、树都是基于这种思路,当集合内元素个数的变大,我们需要的空间和时间都线性变大,检索速度也越来越慢。 Bloom filter 采用的是哈希函数的... 阅读全文

posted @ 2013-11-29 15:41 代码王子 阅读(117) 评论(0) 推荐(0)

Bloom Filter

摘要: Bloom Filter概念和原理 焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这... 阅读全文

posted @ 2013-11-29 15:38 代码王子 阅读(117) 评论(0) 推荐(0)

MurmurHash

摘要: public int hash(byte[] data, int length, int seed) { int m = 0x5bd1e995; int r = 24; int h = seed ^ length; int len_4 = length >> ... 阅读全文

posted @ 2013-11-29 15:20 代码王子 阅读(467) 评论(0) 推荐(0)

Jenkins hash

摘要: 最早,Bob Jenkins提出了多个基于字符串通用Hash算法(搜Jenkins Hash就知道了),而Thomas Wang在Jenkins的基础上,针对固定整数输入做了相应的Hash算法。其64位版本的 Hash算法如下: uint64_t hash(uint64_t key) { k... 阅读全文

posted @ 2013-11-29 15:17 代码王子 阅读(961) 评论(0) 推荐(0)

云时代的风云变换

摘要: 读了IBM的云观点,我相信,他也要开始发力了 在大数据的时代,云处理已经成为一种普遍的处理手段,至少目前为止,云框架还是最普遍接受,并且应用性最广泛的框架。 不同于传统的分布式并行计算,云拥有者太多可以广泛的使用的特点。 大数据是什么,就是青年人的性爱,大家都在谈论,可没人知道真正怎么做,大家都... 阅读全文

posted @ 2013-11-29 11:26 代码王子 阅读(147) 评论(0) 推荐(0)

ibm云时代的转型

摘要: 好几个月了,有两个说法很流行。 第一个说法,是老有人嚷嚷思科快被SDN整趴下了;第二个说法,是老有人嚷嚷IBM在云计算时代完全落后了,要倒下了。 刚开始我还跟有些人辩论: 1、裁员是西方企业常用的战略调整方法,对个体也许冷酷对企业却属常规; 2、这两个企业不但财务状况很strong,而且技术上的... 阅读全文

posted @ 2013-11-29 11:09 代码王子 阅读(227) 评论(0) 推荐(0)

代码中简单实现四舍五入(加上0.5取整)适用于所有语言

摘要: int representGoal = (int) (graph.goal*representRatio+0.5); 只需要加0.5取整。 阅读全文

posted @ 2013-11-29 10:41 代码王子 阅读(489) 评论(0) 推荐(0)

上一页 1 ··· 57 58 59 60 61 62 63 64 65 ··· 119 下一页

导航