java爬虫webmagic - 随笔分类 - 懒到饿死的猫

java 爬虫 WebMagic（四）-Scheduler

摘要：Scheduler是WebMagic中对url进行管理的组件，它主要有2个功能：一般使用不需要自定义，WebMagic默认实现了QueueScheduler。 WebMagic内置了几个常用的Scheduler。所有默认的Scheduler都默认实现了 DuplicateRemover接口，去u 阅读全文

posted @ 2019-09-27 17:08 懒到饿死的猫阅读(935) 评论(0) 推荐(0)

java 爬虫 WebMagic（三）-PipeLine

摘要：在实现了processor接口的时候，把抓取的数据通过发送到自定义的Pipeline中，对数据进行后期处理，如分析，存储等实现方式：继承Pipeline接口，比如：经常直接将数据存到mysql，redis等数据库中，数据持久化的工具就不用我说了吧？jdbc，mybatis等 webMagic中阅读全文

posted @ 2019-09-27 16:18 懒到饿死的猫阅读(1202) 评论(0) 推荐(0)

java 爬虫 WebMagic（二）-PageProcessor

摘要：PageProcessor是WebMagic中最重要的一个，它用来编写爬取的规则，爬什么？怎么爬？首先PageProcessor是一个接口，具体实现需要集成这个接口，重写它的process 例如： site这个对象必须要有，不然会报错，它封装了爬取的配置如： setTimeOut(1000) 表示阅读全文

posted @ 2019-09-27 15:54 懒到饿死的猫阅读(2174) 评论(0) 推荐(0)

java 爬虫 WebMagic（一）-Spider

摘要：现在做爬虫的大部分都在用Python，其实java也可以，这里介绍一款轻量级国产爬虫框架 Webmagic 官方地址：http://webmagic.io/ 个人对于爬虫的理解分为2种，第一种是爬取页面（静态数据），第二种是爬取接口（动态加载的数据）对于静态的页面数据，关键获取到页面documen 阅读全文

posted @ 2019-09-27 12:07 懒到饿死的猫阅读(2839) 评论(0) 推荐(0)

懒到饿死的猫

随笔分类 - java爬虫webmagic

公告