2018年3月25日

webmagic 爬取网页所有文章的标题时间作者和内容

摘要: package com.ij34; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Spider; import us.codecraft.webmagic.pipeline.FilePipeline; import us.codecraft.w... 阅读全文

posted @ 2018-03-25 19:04 Honey_Badger 阅读(550) 评论(0) 推荐(0) 编辑

webmagic 基本的方法

摘要: WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能 PageProcessor 需要自己写 Scheduler 除非项目有一些特殊的 阅读全文

posted @ 2018-03-25 19:02 Honey_Badger 阅读(918) 评论(0) 推荐(0) 编辑

导航

github