爬虫遇到的问题
1、乱码问题
- 在获取到response, response.encoding='utf8'
- 如果上边还是乱码的话,看一下response.encoding是什么格式; 然后再对乱码解码再编码(img_name.encode('ISO-8859-1').decode('gbk')
2、HTTPConnectionPool(host:xxx)Max retriesexceeded with url
原因:
- 每次传输前客户端要和服务器建立TCP连接,为节省传输消耗,默认为keep-alice,即连接一次,传输多次,然而如果连接吃吃不断开的话,则连接池满后无法产生新的链接对象,导致请求无法发送
- ip被封
- 请求频率太频繁
解决:
- 设置请求头中的Connection:close
- 更换ip
- 每次请求之间sleep
3、代理IP
http://www.goubanjia.com/
快代理
西斯代理