摘要:
何谓海量数据处理? 所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。处理海量数据问题,无非就是:1.分而治之/hash映射 + hash统计 +堆/快速/归并排序;2.双层桶划分3.Bloom filter/Bitmap;4.Trie树/数据库/倒排索引;5.外排序;6.分布式处理之Hadoop/Mapreduce。具体请参看博文http://blog.csdn.net/v_july_v/article/details/7382693,已经阐述得很详细了,这里就不重述。下面我们 阅读全文
随笔分类 - 海量数据处理
海量数据处理之倒排索引
2012-08-14 10:58 by javaspring, 9550 阅读, 收藏,
摘要:
前言:本文是对博文http://blog.csdn.net/v_july_v/article/details/7085669的总结和引用一,什么是倒排索引问题描述:文档检索系统,查询那些文件包含了某单词,比如常见的学术论文的关键字搜索。基本原理及要点:为何叫倒排索引?一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。 以英文为例,下面是要被索引的文本: T0 = "it is what it is" T1 = "what is it" T2 = "it is a banana" 我们就能得到下面的反 阅读全文
海量数据处理之数据库索引
2012-08-13 10:18 by javaspring, 1351 阅读, 收藏,
摘要:
前言:本文第一部分讨论数据库的索引及其优化,主要以sql server为例,第二部分我们从Mysql讨论它背后的数据结构和算法原理。第一部分,数据库索引及其优化一,什么是索引 数据库索引好比是一本书前面的目录,能加快数据库的查询速度。 例如这样一个查询:select * from table1 where id=44。如果没有索引,必须遍历整个表,直到ID等于44的这一行被找到为止;有了索引之后(必须是在ID这一列上建立的索引),直接在索引里面找44(也就是在ID这一列找),就可以得知这一行的位置,也就是找到了这一行。可见,索引是用来定位的。 索引分为聚簇索引和非聚簇索引两种,聚簇索引 ... 阅读全文
海量数据处理之从Hadoop框架与MapReduce模式中谈海量数据处理(淘宝技术架构)
2012-06-06 15:07 by javaspring, 274 阅读, 收藏,
摘要:
出处:http://blog.csdn.net/v_july_v/article/details/6704077前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。 由此,最近凡是空闲时,便在看“Hadoop”,“MapReduce”“海量数据处理”这方面的论文。但在看论文的过程中,总觉得那些论文都是浅尝辄止,常常看的很不过瘾,总是一个东西刚要讲到紧要处,它便结束了,让 阅读全文