随笔分类 -  java爬虫webmagic

摘要:Scheduler是WebMagic中对url进行管理的组件,它主要有2个功能: 一般使用不需要自定义,WebMagic默认实现了QueueScheduler。 WebMagic内置了几个常用的Scheduler。 所有默认的Scheduler都默认实现了 DuplicateRemover接口,去u 阅读全文
posted @ 2019-09-27 17:08 懒到饿死的猫 阅读(935) 评论(0) 推荐(0)
摘要:在实现了processor接口的时候,把抓取的数据通过 发送到自定义的Pipeline中,对数据进行后期处理,如分析,存储等 实现方式:继承Pipeline接口,比如: 经常直接将数据存到mysql,redis等数据库中,数据持久化的工具就不用我说了吧?jdbc,mybatis等 webMagic中 阅读全文
posted @ 2019-09-27 16:18 懒到饿死的猫 阅读(1202) 评论(0) 推荐(0)
摘要:PageProcessor是WebMagic中最重要的一个,它用来编写爬取的规则,爬什么?怎么爬? 首先PageProcessor是一个接口,具体实现需要集成这个接口,重写它的process 例如: site这个对象必须要有,不然会报错,它封装了爬取的配置如: setTimeOut(1000) 表示 阅读全文
posted @ 2019-09-27 15:54 懒到饿死的猫 阅读(2174) 评论(0) 推荐(0)
摘要:现在做爬虫的大部分都在用Python,其实java也可以,这里介绍一款轻量级国产爬虫框架 Webmagic 官方地址:http://webmagic.io/ 个人对于爬虫的理解分为2种,第一种是爬取页面(静态数据),第二种是爬取接口(动态加载的数据) 对于静态的页面数据,关键获取到页面documen 阅读全文
posted @ 2019-09-27 12:07 懒到饿死的猫 阅读(2839) 评论(0) 推荐(0)