五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2018年10月19日

摘要: 1.目标采集地址: http://183.129.219.195:8081/bs/hzzjb/web/list2.这里的翻页还是较为简单的,只要模拟post请求发送data包含关键参数就能获取下一页页面信息。获取页面标签信息的方法不合适,是之前写的,应该用xpath匹配整个table数据获取父类选择器再去二次匹配子类标签数据。3.采集结果如下: #hzzjb.py # -*- coding... 阅读全文
posted @ 2018-10-19 09:43 五杀摇滚小拉夫 阅读(442) 评论(0) 推荐(0)

2018年10月18日

摘要: 1.采集目标地址 https://www.glass.cn/gongying/sellindex.aspx 网站比较简单,没什么大的需要注意的问题。2.通过分析测试 https://www.glass.cn/gongying/a_l_p1_ky/ 等价于目标采集网站首页,只需设置{}.format 翻页这个完整比较简单,就是获取一下页码,再做一下翻页,循环采集页面跳转url,再进入url采集页... 阅读全文
posted @ 2018-10-18 15:35 五杀摇滚小拉夫 阅读(331) 评论(1) 推荐(0)

2018年9月27日

摘要: 链接 Navicat 阅读全文
posted @ 2018-09-27 17:47 五杀摇滚小拉夫 阅读(226) 评论(0) 推荐(0)

摘要: 链接地址:https://blog.csdn.net/yuanxiang01/article/details/78787823 阅读全文
posted @ 2018-09-27 17:38 五杀摇滚小拉夫 阅读(219) 评论(0) 推荐(0)

2018年9月26日

摘要: 执行结果如图: 运行结果如图: 执行结果如图: 阅读全文
posted @ 2018-09-26 18:21 五杀摇滚小拉夫 阅读(136) 评论(0) 推荐(0)

摘要: scrapy crawl nbzj 执行结果如下 由于设置deloy为 1s 所以速度会比较慢,采集237142条数据。 阅读全文
posted @ 2018-09-26 13:58 五杀摇滚小拉夫 阅读(2405) 评论(1) 推荐(0)

2018年9月25日

摘要: 这几天一直都再用scrapy写网站数据采集的爬虫,这里我就选一个写过的爬虫来记录一下。杭州造价网:http://183.129.219.195:8081/bs/hzzjb/web/list这里出现的主要问题就是:1. 这里我的代码会出现一些问题,内存溢出,由于程序一直在运行,内存一直在增加(未释放内存,有待改进),就会导致爬虫程序假死等待。2. yield scrapy.FormRequest(... 阅读全文
posted @ 2018-09-25 17:15 五杀摇滚小拉夫 阅读(361) 评论(0) 推荐(0)

摘要: 邮件通知这一部分是我们组大佬写的,主要是为了解决人工去检查网站是否更新的问题做到自动化通知,那个邮件通知的代码,我之前也没写过,过两天看一下代码是如何实现的再写随笔。 阅读全文
posted @ 2018-09-25 16:55 五杀摇滚小拉夫 阅读(167) 评论(0) 推荐(0)

摘要: 温州数据采集这里采集网站数据是下载pdf:http://wzszjw.wenzhou.gov.cn/col/col1357901/index.html(涉及的问题就是scrapy 文件的下载设置,之前没用scrapy下载文件,所以弄了很久才弄好,网上很多不过写的都不完善。)主要重点就是设置: 1.piplines.py 文件下载代码 这部分可以直接拿来用不需要修改。2.就是下载文件的url要... 阅读全文
posted @ 2018-09-25 16:50 五杀摇滚小拉夫 阅读(217) 评论(0) 推荐(0)

摘要: 网站数据监控:思路:对网站数据字段监控并做MD5加密存入到数据,为了后期监控数据是否更新作比对,然后邮件通知,存入四个字段。 引入的包:md5_tools.py # -*- coding:utf-8 -*-import hashlib# md5 加密def md5_encode(md5): md5 = md5 hash = hashlib.md5() hash.update(... 阅读全文
posted @ 2018-09-25 16:24 五杀摇滚小拉夫 阅读(178) 评论(0) 推荐(0)