2017 年 10月随笔档案 - 双鱼男-huangsh

爬取房天下整个网站房产数据。。。

摘要：以前爬的数据量都有点少了，所以现在写个爬房天下全站数据爬虫来，用redis进行URL的去重处理，采用mysql储存清洗过后房产数据，采用线程池来进行调度，进行多线程爬取后面会用scrapy框架做分布式集群来爬取数据，做完分布式爬虫就差不多了，后面就是scrapy深入研究和数据系统开发的学习下面是阅读全文

posted @ 2017-10-29 16:54 双鱼男-huangsh 阅读(4291) 评论(1) 推荐(0)

今天对python记录日志和发邮件两个常用功能做了封装

摘要：因为这两个是开发中经常会用到的功能，所以今天就做了简单的封装，下面是封装的代码。。。阅读全文

posted @ 2017-10-27 17:46 双鱼男-huangsh 阅读(914) 评论(0) 推荐(0)

Python爬虫之设置代理IP

摘要：（三）代理IP的使用运行上面的代码会得到一个随机的proxies，把它直接传入requests的get方法中即可。阅读全文

posted @ 2017-10-15 15:38 双鱼男-huangsh 阅读(2354) 评论(0) 推荐(1)

pycharm下虚拟环境执行并调试scrapy爬虫程序（一）

摘要：配置scrapy环境分别pip install Zope.Interface、Twisted、w3lib、lxml、pyOpenSSL、Scrapy 新建爬虫项目，pycharm运行我的项目名称为RadioCrawl文件夹为 Paste_Image.png 新建main.pyfrom scrap 阅读全文

posted @ 2017-10-14 13:42 双鱼男-huangsh 阅读(503) 评论(0) 推荐(0)

python的py文件打包成exe

摘要：一、首先需要安装Pyinstaller-- 使用pip来安装模块 (我电脑上装的是python的一个编译环境Anaconda，如果电脑上装的是python自带的IDE的话，就直接进入python的安装路径，比如是：“D:\python27\Scripts\pip.exe”) 我的Anaconda2安阅读全文

posted @ 2017-10-11 10:51 双鱼男-huangsh 阅读(353) 评论(0) 推荐(0)

爬取淘女郎模特个人信息数据和写真

摘要：趁着国庆节有时间，帮人写了个爬取淘女郎模特动态加载的图片的爬虫，还有爬取模特们的个人信息数据，这个爬虫花了3天时间，因为图片是异步加载的所以爬取的复杂度有点大，最终我通过研究URL的变化，构造新的URL来进行持续性爬取，不过爬取速度真心慢（查看了cpu的利用率还有很多没有利用到），我准备把多线程加进去说实话不太好加，有点头大， 1 # -*- coding: utf-8 -*- 2 im... 阅读全文

posted @ 2017-10-03 17:52 双鱼男-huangsh 阅读(1365) 评论(0) 推荐(0)

再探-python高级用法装饰器

摘要：五、装饰器装饰器是程序开发中经常会用到的一个功能，用好了装饰器，开发效率如虎添翼，所以这也是Python面试中必问的问题，但对于好多初次接触这个知识的人来讲，这个功能有点绕，自学时直接绕过去了，然后面试问到了就挂了，因为装饰器是程序开发的基础知识，这个都不会，别跟人家说你会Python, 看了下面阅读全文

posted @ 2017-10-01 21:07 双鱼男-huangsh 阅读(287) 评论(0) 推荐(0)

月下柳梢映

10 2017 档案

公告