随笔分类 - 搜索引擎
摘要:调研背景项目中要对指定的网络资源进行抓取、存储、分类、索引、并提供检索服务。充当全文检索数据库的是Apache组织下的开源项目Lucene检索工具,而Lucene只是个搜索引擎工具,它提供API接口,通过编写程序对信息进行索引和检索,在其后台需要网络爬虫程序的支持,其目的是通过网络爬虫软件抓取网页,作为提供给Lucene搜索引擎的资源,进行索引和查询。调研对象Nutchhttp://nutch.apache.org/Heritrixhttp://crawler.archive.org/NutchNutch是Apache基金会的一个开源项目,它原本是开源文件索引框架Lucene项目的一个子项目,
阅读全文

浙公网安备 33010602011771号