随笔分类 -  搜索引擎

摘要:调研背景项目中要对指定的网络资源进行抓取、存储、分类、索引、并提供检索服务。充当全文检索数据库的是Apache组织下的开源项目Lucene检索工具,而Lucene只是个搜索引擎工具,它提供API接口,通过编写程序对信息进行索引和检索,在其后台需要网络爬虫程序的支持,其目的是通过网络爬虫软件抓取网页,作为提供给Lucene搜索引擎的资源,进行索引和查询。调研对象Nutchhttp://nutch.apache.org/Heritrixhttp://crawler.archive.org/NutchNutch是Apache基金会的一个开源项目,它原本是开源文件索引框架Lucene项目的一个子项目, 阅读全文
posted @ 2012-03-14 12:58 星语心愿~ 阅读(798) 评论(0) 推荐(0)