05 2018 档案
MapReduce
摘要:MapReduce 是一个并行计算框架。最初由Google提出来的,用于解决大规模数据(大于1T)的并行计算。 通俗来说:MpaReduce 是集合大规模的机器资源,对大数据进行并行计算的一种编程模型。 MapReduce 分为两个过程,Map(映射)和 Reduce(归纳)。这两个过程的思想来源于 阅读全文
posted @ 2018-05-16 21:16 情月 阅读(455) 评论(0) 推荐(0)
搜索引擎中index、attribute和summary概念
摘要:index:倒排索引 attribute: 正排索引 summary:数据集合,用于数据结果展示。 阅读全文
posted @ 2018-05-15 22:43 情月 阅读(938) 评论(0) 推荐(0)
正排索引和倒排索引简单介绍
摘要:在搜索引擎中,数据被爬取后,就会建立index,方便检索。 在工作中经常会听到有人问,你这个index是正排的还是倒排的?那么什么是正排呢?什么又是倒排呢?下面是一些简单的介绍。 网页A中的内容片段: Tom is a boy. Tom is a student too. 网页B中的内容片段: Jo 阅读全文
posted @ 2018-05-15 22:28 情月 阅读(26930) 评论(2) 推荐(4)