海量数据处理 - 随笔分类 - 星语心愿~

BloomFilter--实例

摘要：Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一. 实例为了说明Bloom Filter存在的重要意义，举一个实例：假设要你写一个网络蜘蛛（web crawler）。由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”，就需要知道蜘蛛已经访问过那些URL。给一个URL，怎样知道蜘蛛是否已经访问过呢？稍微想想，就会有如下几种方案： 1. 将访问过的URL保存到数据库。 2. 用HashSet将访问过的URL保存起来。那只需接近O(... 阅读全文

posted @ 2012-09-26 10:37 星语心愿~ 阅读(395) 评论(0) 推荐(0)

hypertable0.9.5.4在ubuntu上的安装

摘要：经过几番调研，我觉定将我的毕业设计架构在ubuntu11.04+ hypertable +（ hadoop）上。当然，开始就是安装就是hypertable，本以为很容易就装上了，结果印证了一句话：程序员的世界只有实践才能证明结果啊！悲剧的我安装了一周，时至今日才勉强搞定，遂把自己的血泪教训记录一番，大牛牛们也许觉得很白菜的误区根本不足讨论，但是，若是遇到像我一样的菜鸟，希望能为他避开一些误区，不要和我犯同样的错误啊～1 在网上搜寻了前辈安装hypertable的记录，几番筛选，选择了台湾一个前辈的安装笔记，因为很详细很具体，每步骤都有截图。现在回想一下，从此刻就埋下了我之后一周的悲剧的种子啊阅读全文

posted @ 2012-09-12 17:01 星语心愿~ 阅读(189) 评论(0) 推荐(0)

NoSQL数据库探讨 -- 非关系型数据库

摘要：随着互联网web2.0网站的兴起，非关系型的数据库现在成了一个极其热门的新领域，非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，例如： 1、High performance - 对数据库高并发读写的需求 web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息，所以基本上无法使用动态页面静态化技术，因此数据库并发负载非常高，往往要达到每秒上万次读写请求。关系数据库应付上万次SQL查询还勉强顶得住，但是应付上万次SQL写数据请求，硬盘IO就已经无法承受阅读全文

posted @ 2012-09-12 15:43 星语心愿~ 阅读(211) 评论(0) 推荐(0)

大数据下的数据分析平台架构

摘要：随着互联网、移动互联网和物联网的发展，谁也无法否认，我们已经切实地迎来了一个海量数据的时代，数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB，对这些海量数据的分析已经成为一个非常重要且紧迫的需求。谢超Admaster数据挖掘总监，云计算实践者，10年数据仓库和数据挖掘咨询经验，现专注于分布式平台上的海量数据挖掘和机器学习。作为一家互联网数据分析公司，我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下，我们几乎尝试了所有可能的大数据分析方法，最终落地于Hadoop平台之上。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为阅读全文

posted @ 2012-03-14 13:00 星语心愿~ 阅读(295) 评论(0) 推荐(0)

[转] 研究云计算与海量数据处理方向建议看的论文列表

摘要：本问转自：http://cloud.dlmu.edu.cn/cloudsite/index.php?action-viewnews-itemid-123-php-1[1] Zhou AY. Data intensive computing-challenges of data management techniques. Communications of CCF, 2009,5(7):50.53 (in Chinese with English abstract).[2] Cohen J, Dolan B, Dunlap M, Hellerstein JM, Welton C. MAD sk 阅读全文

posted @ 2012-03-14 12:48 星语心愿~ 阅读(276) 评论(0) 推荐(0)

大数据技术大会

摘要：http://special.csdn.net/bdclive/index.html你们都懂的.. 阅读全文

posted @ 2012-03-14 12:47 星语心愿~ 阅读(113) 评论(0) 推荐(0)

程序员应知 -- 如何分析海量数据

摘要：在这个云计算热炒的时代，如果你没有处理过海量数据的话，你将不再是个合格的Coder。现在赶紧补补吧~前一阵子分析了一个将近1TB的数据群（gz文件，压缩率10%）。因为第一次分析如此巨大的数据，没有经验，所以浪费了许多时间。下面是我整理的一些经验，方便后者。欢迎各种补充，我会不断更新这篇文章；觉得有用的话，速度分享链接；有不同意见的话，请果断拍砖；下载数据Q：怎么自动下载多个文件？这是我遇到的第一个问题。当数据量很大时，一般都会分成很多个文件存放。这时下载文件比较麻烦。A：用Wget命令。Windows下花费一点时间去下载安装。但之于手动下载，能省不少时间。我提供两种方式方式下载文件，a）用W 阅读全文

posted @ 2012-03-14 12:45 星语心愿~ 阅读(234) 评论(0) 推荐(0)

程序博客

留下闪烁的记忆 >> >>

随笔分类 - 海量数据处理

公告