nutch学习笔记(二)入门篇
摘要:上一篇博客中叙述了如何利用nutch爬取网页的过程。本篇则讲述建立逆向索引以及与solr结合展示结果的方法。1. 建立逆向索引 所谓的逆向索引,其实就是从词(字符串)到文本的映射。一般而言,在爬取网页后,我们会自然而然的会得到一种索引——从文本到词的映射,即查询条件为文本,查询结果为该文本中包含哪...
阅读全文
posted @ 2014-07-08 19:05
posted @ 2014-07-08 19:05
posted @ 2014-06-18 11:44