摘要: 转 爬虫的定向爬取与垂直搜索 定向爬虫是网络爬虫的一种。 定向爬虫 定向爬虫可以精准的获取目标站点信息。 定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储。 优势: 基于模版的信息提取技术,能提供更加精准的信息。比如价格,房屋面积,时间,职位,公司名等等。 劣势: 目标 阅读全文
posted @ 2016-06-30 16:39 dy9776 阅读(793) 评论(0) 推荐(0)
摘要: 转 目前网络上开源的网络爬虫以及一些简介和比较 目前网络上有不少开源的网络爬虫可供我们使用,爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表: 下面我们再对Nutch、Larbin、Heritrix这三个爬虫进行更细致的比较: 阅读全文
posted @ 2016-06-30 16:36 dy9776 阅读(577) 评论(0) 推荐(0)