暑期总结8.13

经历多天的努力,hadoop的环境配置已经完成,编译器也能成功连接,下一步就是开始学习框架,第一个目标为WebMagic,这应该是比较简单好上手的java爬虫框架,先把这个搞懂,再以此为基础进行下一步。

  今天对WebMagic进行了初步的概念上的认识,在此做个笔记。

WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,我们只需要完成逻辑的设计即可快速开发出一个高效、易维护的爬虫。

流程图:

Downloader 负责从internet上下载页面,方便后续处理

PageProcesser负责解析网页和提取链接

Scheduler 负责管理待抓取的 URL 和去重。

Pipeline 负责结果数据的持久化,所谓持久化就是把数据进行贮存,保存在文件或是数据库中。

 

 

 

posted @ 2020-08-13 17:07  溜了溜  阅读(74)  评论(0编辑  收藏  举报