01 2018 档案

python爬虫之线程池和进程池

摘要：一、需求最近准备爬取某电商网站的数据，先不考虑代理、分布式，先说效率问题（当然你要是请求的太快就会被封掉，亲测，400个请求过去，服务器直接拒绝连接，心碎），步入正题。一般情况下小白的我们第一个想到的是for循环，这个可是单线程啊。那我们考虑for循环直接开他个5个线程，问题来了，如果有一个url 阅读全文

posted @ 2018-01-31 17:05 Charles.L 阅读(9928) 评论(1) 推荐(0)

python爬虫之scrapy模拟登录

摘要：背景：初来乍到的pythoner，刚开始的时候觉得所有的网站无非就是分析HTML、json数据，但是忽略了很多的一个问题，有很多的网站为了反爬虫，除了需要高可用代理IP地址池外，还需要登录。例如知乎，很多信息都是需要登录以后才能爬取，但是频繁登录后就会出现验证码（有些网站直接就让你输入验证码），这阅读全文

posted @ 2018-01-05 11:41 Charles.L 阅读(18258) 评论(4) 推荐(2)

Charles.L

人生苦短

01 2018 档案

公告