摘要: 环境ubuntu11.10tomcat6.0.35nutch1.2笔者想到的分类搜索的方法是根据不同的url建立不同的抓取库,比如要搞电力行业的垂直的搜索,可以将他分为新闻,产品,人才。那麽就建立三个抓取库,每个抓取库都有自己的url入口地址列表。然后配置网站过滤规则达到想要的结果。下面笔者将一步一步的讲解他的实现过程。首先先要得到相关类别的url入口地址列表,这个可以分类百度一下然后根据结果自己整理出来3个列表。以下是笔者整理的三个列表。新闻的(文件名newsURL)http://www.cpnn.com.cn/http://news.bjx.com.cn/http://www.chinap 阅读全文
posted @ 2013-05-31 21:14 风风清清扬扬 阅读(275) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2013-05-31 17:42 风风清清扬扬 阅读(7) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2013-05-31 10:13 风风清清扬扬 阅读(9) 评论(0) 推荐(0)