摘要: 需要爬取国内某个网站,但是这个网站封ip,没办法,只能用代理了,然后构建自己的代理池,代理池维护了20条进程, 所用的网络是20M带宽,实际的网速能达到2.5M,考虑到其他原因,网速未必能达到那么多。爬虫对网速的要求挺高的。 首先把 URL 图片的链接 抓取下来 保存到数据库中去,然后使用多进程进行 阅读全文
posted @ 2017-09-30 17:03 淋哥 阅读(1228) 评论(0) 推荐(1) 编辑
摘要: 今天要聊的是封ip对爬虫的影响。我认为封ip能拒绝一部分网络请求,减轻服务器的压力,但是如果要是建立一个好的ip池,封对爬虫的影响不大。 爬取国内一个拍卖公司的网站,刚开始用多进程下载,每分钟能爬取 1000个页面,后来不知怎么地,他封ip了,于是就去购买爬虫ip,建立自己的代理池, 仅仅维护了二十 阅读全文
posted @ 2017-09-30 15:58 淋哥 阅读(726) 评论(0) 推荐(0) 编辑
摘要: 今天要做数据清洗的时候,要更新一个数据库字段,考虑到用多进程去更新数据库,也许程序会跑得快一些,结果开了64个进程, 结果是其他程序更新的时候,速度非常慢,最后发现的原因是,数据库中有64个SQL语句执行更新,这样就导致了对数据库进行增删改查的速度很慢。 这是一个血的教训,所有以后的操作尽量少用多进 阅读全文
posted @ 2017-09-30 14:46 淋哥 阅读(1811) 评论(0) 推荐(0) 编辑
摘要: 一下子运行 七八十个 select 将会是什么样的体验呢? 业务部门提供了一个需要,要求从爬虫数据中提取出88家的数据, 并且也提供了一个excel表格,如下图: 这个时候我们可以通过拍卖行,拍卖时间,拍卖会专场写SQL语句,单个SQL是这样写的。其中数据库表格的数据是540万,我们在建表的时候已经 阅读全文
posted @ 2017-09-30 14:27 淋哥 阅读(647) 评论(0) 推荐(0) 编辑
摘要: 重要的事情说三遍 chromedriver 下载地址 chromedriver 下载地址 chromedriver 下载地址 http://chromedriver.storage.googleapis.com/index.html 阅读全文
posted @ 2017-09-30 14:10 淋哥 阅读(275) 评论(0) 推荐(0) 编辑