10 2017 档案

摘要:以前爬的数据量都有点少了,所以现在写个爬房天下全站数据爬虫来,用redis进行URL的去重处理,采用mysql储存清洗过后房产数据,采用线程池来进行调度,进行多线程爬取 后面会用scrapy框架做分布式集群来爬取数据,做完分布式爬虫就差不多了,后面就是scrapy深入研究和数据系统开发的学习 下面是 阅读全文
posted @ 2017-10-29 16:54 双鱼男-huangsh 阅读(4291) 评论(1) 推荐(0)
摘要:因为这两个是开发中经常会用到的功能,所以今天就做了简单的封装,下面是封装的代码。。。 阅读全文
posted @ 2017-10-27 17:46 双鱼男-huangsh 阅读(914) 评论(0) 推荐(0)
摘要:(三)代理IP的使用 运行上面的代码会得到一个随机的proxies,把它直接传入requests的get方法中即可。 阅读全文
posted @ 2017-10-15 15:38 双鱼男-huangsh 阅读(2354) 评论(0) 推荐(1)
摘要:配置scrapy环境 分别pip install Zope.Interface、Twisted、w3lib、lxml、pyOpenSSL、Scrapy 新建爬虫项目,pycharm运行 我的项目名称为RadioCrawl文件夹为 Paste_Image.png 新建main.pyfrom scrap 阅读全文
posted @ 2017-10-14 13:42 双鱼男-huangsh 阅读(503) 评论(0) 推荐(0)
摘要:一、首先需要安装Pyinstaller-- 使用pip来安装模块 (我电脑上装的是python的一个编译环境Anaconda,如果电脑上装的是python自带的IDE的话,就直接进入python的安装路径,比如是:“D:\python27\Scripts\pip.exe”) 我的Anaconda2安 阅读全文
posted @ 2017-10-11 10:51 双鱼男-huangsh 阅读(353) 评论(0) 推荐(0)
摘要:趁着国庆节有时间,帮人写了个爬取淘女郎模特动态加载的图片的爬虫,还有爬取模特们的个人信息数据,这个爬虫花了3天时间,因为图片是异步加载的所以爬取的复杂度有点大,最终我通过研究URL的变化,构造新的URL来进行持续性爬取,不过爬取速度真心慢(查看了cpu的利用率还有很多没有利用到),我准备把多线程加进去说实话不太好加,有点头大, 1 # -*- coding: utf-8 -*- 2 im... 阅读全文
posted @ 2017-10-03 17:52 双鱼男-huangsh 阅读(1365) 评论(0) 推荐(0)
摘要:五、装饰器 装饰器是程序开发中经常会用到的一个功能,用好了装饰器,开发效率如虎添翼,所以这也是Python面试中必问的问题,但对于好多初次接触这个知识的人来讲,这个功能有点绕,自学时直接绕过去了,然后面试问到了就挂了,因为装饰器是程序开发的基础知识,这个都不会,别跟人家说你会Python, 看了下面 阅读全文
posted @ 2017-10-01 21:07 双鱼男-huangsh 阅读(287) 评论(0) 推荐(0)