01 2017 档案
文档倒排序索引
摘要:倒排索引是目前几乎所有支持全文检索的搜索引擎都需要依赖的数据结构,该索引结构被用来存储某个单词(或词组)在一个文档或一组文档中存储位置的映射,即提供了一种根据内容来查找文档的方式,由于不是根据文档来确定文档所含的内容,而是进行了相反的操作,因而被称为倒排索引。 图1-1为带词频统计属性的文档呢倒排索 阅读全文
posted @ 2017-01-20 10:52 百里琰 阅读(673) 评论(0) 推荐(0)
单词共现算法
摘要:如果单词u属于单词w的窗口内,则认为(u,w)出现一次,这里的窗口可以定义为一个固定大小的窗口,或者是前后相连出现、在同一句中出现、在同一个段落中出现的单词,如果窗口中的单词为[w1,w2,w3],则发射((w1,w2),1)和((w1,w3),1)出去,然后窗口向后移动一个单词。Reduce阶段则 阅读全文
posted @ 2017-01-12 21:03 百里琰 阅读(2429) 评论(0) 推荐(0)
MapReduce关系代数运算
摘要:常见关系代数运算包括:选择、投影、并、交、差以及自然连接操作等,都可以十分容易利用MapReduce框架进行并行化计算 选择操作 将关系R的数据存储在relationR文件,然后移入HDFS下的data文件夹,如代码1-1 代码1-1 对于关系R的应用条件C,选择性别为女的数据,只需在Map阶段对每 阅读全文
posted @ 2017-01-08 11:32 百里琰 阅读(2356) 评论(0) 推荐(0)
矩阵乘法的MapReduce实现
摘要:对于任意矩阵M和N,若矩阵M的列数等于矩阵N的行数,则记M和N的乘积为P=M*N,其中mik 记做矩阵M的第i行和第k列,nkj记做矩阵N的第k行和第j列,则矩阵P中,第i行第j列的元素可表示为公式(1-1): pij=(M*N)ij=∑miknkj=mi1*n1j+mi2*n2j+……+mik*n 阅读全文
posted @ 2017-01-07 12:08 百里琰 阅读(4835) 评论(0) 推荐(0)