随笔分类 - 海量数据处理
摘要:Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”,就需要知道蜘蛛已经访问过那些URL。给一个URL,怎样知道蜘蛛是否已经访问过呢?稍微想想,就会有如下几种方案: 1. 将访问过的URL保存到数据库。 2. 用HashSet将访问过的URL保存起来。那只需接近O(...
阅读全文
摘要:经过几番调研,我觉定将我的毕业设计架构在ubuntu11.04+ hypertable +( hadoop)上。 当然,开始就是安装就是hypertable,本以为很容易就装上了,结果印证了一句话:程序员的世界只有实践才能证明结果啊!悲剧的我安装了一周,时至今日才勉强搞定,遂把自己的血泪教训记录一番,大牛牛们也许觉得很白菜的误区根本不足讨论,但是,若是遇到像我一样的菜鸟,希望能为他避开一些误区,不要和我犯同样的错误啊~1 在网上搜寻了前辈安装hypertable的记录,几番筛选,选择了台湾一个前辈的安装笔记,因为很详细很具体,每步骤都有截图。现在回想一下,从此刻就埋下了我之后一周的悲剧的种子啊
阅读全文
摘要:随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域, 非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不 从心,暴露了很多难以克服的问题,例如: 1、High performance - 对数据库高并发读写的需求 web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息,所以基本上无法使用动态页面静态化技术,因此数据库并发负载非常高,往往要达到 每秒上万次读写请求。关系数据库应付上万次SQL查询还勉强顶得住,但是应付上万次SQL写数据请求,硬盘IO就已经无法承受
阅读全文
摘要:随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。谢超Admaster数据挖掘总监,云计算实践者,10年数据仓库和数据挖掘咨询经验,现专注于分布式平台上的海量数据挖掘和机器学习。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为
阅读全文
摘要:本问转自:http://cloud.dlmu.edu.cn/cloudsite/index.php?action-viewnews-itemid-123-php-1[1] Zhou AY. Data intensive computing-challenges of data management techniques. Communications of CCF, 2009,5(7):50.53 (in Chinese with English abstract).[2] Cohen J, Dolan B, Dunlap M, Hellerstein JM, Welton C. MAD sk
阅读全文
摘要:http://special.csdn.net/bdclive/index.html你们都懂的..
阅读全文
摘要:在这个云计算热炒的时代,如果你没有处理过海量数据的话,你将不再是个合格的Coder。现在赶紧补补吧~前一阵子分析了一个将近1TB的数据群(gz文件,压缩率10%)。因为第一次分析如此巨大的数据,没有经验,所以浪费了许多时间。下面是我整理的一些经验,方便后者。欢迎各种补充,我会不断更新这篇文章;觉得有用的话,速度分享链接;有不同意见的话,请果断拍砖;下载数据Q:怎么自动下载多个文件?这是我遇到的第一个问题。当数据量很大时,一般都会分成很多个文件存放。这时下载文件比较麻烦。A:用Wget命令。Windows下花费一点时间去下载安装。但之于手动下载,能省不少时间。我提供两种方式方式下载文件,a)用W
阅读全文

浙公网安备 33010602011771号