2016 年 8月 6 日随笔档案 - 流水殇

2016年8月6日

摘要：本节我将向大家介绍一下YayCrawler的核心-页面的抽取规则定义，这也是YayCrawler能够做到通用的主要原因之一。如果我要爬去不同的网站的数据，尽管他们的网站采用的开发技术不同、页面的结构不同，但是我只要针对不同的网站定义不同的抽取规则即可，不用再对每个网站专门开发一个爬虫。首先让我来解阅读全文

posted @ 2016-08-06 21:57 流水殇阅读(5783) 评论(3) 推荐(0) 编辑

开源通用爬虫框架YayCrawler-开篇

摘要：各位好！从今天起，我将用几个篇幅的文字向大家介绍一下我的一个开源作品——YayCrawler，其在GitHub上的网址是:https://github.com/liushuishang/YayCrawler,欢迎大家关注和反馈。 YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架，开发语言是Java。我们知道目前爬虫框架很多，有简单的，也有复杂的，有轻量型的，也有重量型的。您... 阅读全文

posted @ 2016-08-06 15:21 流水殇阅读(7210) 评论(15) 推荐(12) 编辑

开源通用爬虫框架YayCrawler-框架的运行机制

摘要：这一节我将向大家介绍一下YayCrawler的运行机制，首先允许我上一张图：首先各个组件的启动顺序建议是Master、Worker、Admin，其实不按这个顺序也没关系，我们为了讲解方便假定是这个启动顺序。一、Master端分析 Master启动后会连接Redis查询任务队列状态，Master维阅读全文

posted @ 2016-08-06 15:15 流水殇阅读(3352) 评论(0) 推荐(0) 编辑