2018年1月9日

爬虫优化设计

摘要: 该随笔是在原随笔上进行的优化,原随笔地址:http://www.cnblogs.com/null-qige/p/8028832.html 一、原设计 基于原先设计,当一个任务启动,添加多个spider,每个spider负责一个业务。通过子spider持有父spider的引用来进行业务关联,比如子sp 阅读全文

posted @ 2018-01-09 17:14 阿姆斯特朗回旋炮 阅读(344) 评论(0) 推荐(0) 编辑

2017年12月29日

RabbitMQ阻塞读取时数据时,关闭channel引起的问题和解决方案

摘要: 项目场景: 最近在项目中使用了RabbitMq,其中有一个功能必须能随时切断RabbitMq的coumser。第一时间写出来的代码如下: 伪代码: 通过关闭channel,消费者自然会关闭。然而,项目开始报错: channel关闭抛出ShutdownSignalException,抛出异常就表示这种 阅读全文

posted @ 2017-12-29 16:20 阿姆斯特朗回旋炮 阅读(9825) 评论(0) 推荐(0) 编辑

2017年12月12日

webMagic+RabbitMQ+ES爬取京东建材数据

摘要: 本次爬虫所要爬取的数据为京东建材数据,在爬取京东的过程中,发现京东并没有做反爬虫动作,所以爬取的过程还是比较顺利的。 为什么要用WebMagic: WebMagic作为一款轻量级的Java爬虫框架,可以极大的减少爬虫的开发时间 为什么要使用MQ(本项目用的RabbitMq,其他的MQ也可以): 解耦 阅读全文

posted @ 2017-12-12 17:26 阿姆斯特朗回旋炮 阅读(2461) 评论(3) 推荐(5) 编辑

2017年12月4日

webMagic解析淘宝cookie 提示Invalid cookie header

摘要: webMagic解析淘宝cookie 提示Invalid cookie header 在使用webMagic框架做爬虫爬取淘宝极又家页面时候一直提醒cookie设置不可用如下图 淘宝的验证特别严重,cookie没有正常设置进去后面会频繁弹出验证页面,这是我们不想看到的。为了解决这个问题,debug进 阅读全文

posted @ 2017-12-04 20:04 阿姆斯特朗回旋炮 阅读(2785) 评论(0) 推荐(0) 编辑

2017年11月16日

学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面

摘要: 由于业务需要,老大要我研究一下爬虫。 团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周。基于以上原因固放弃python,选择java为语言来进行开发。等之后有时间再尝试python来实现一个。 本次爬虫选用了webMagic+selenium+phantomjs,选用他们的原因 阅读全文

posted @ 2017-11-16 16:24 阿姆斯特朗回旋炮 阅读(16509) 评论(7) 推荐(0) 编辑

导航