爬虫遇到的问题

1、乱码问题

  • 在获取到response,   response.encoding='utf8'
  • 如果上边还是乱码的话,看一下response.encoding是什么格式;    然后再对乱码解码再编码(img_name.encode('ISO-8859-1').decode('gbk')

 2、HTTPConnectionPool(host:xxx)Max retriesexceeded with url

  原因:

  1. 每次传输前客户端要和服务器建立TCP连接,为节省传输消耗,默认为keep-alice,即连接一次,传输多次,然而如果连接吃吃不断开的话,则连接池满后无法产生新的链接对象,导致请求无法发送
  2. ip被封
  3. 请求频率太频繁

  解决:

  1. 设置请求头中的Connection:close
  2. 更换ip
  3. 每次请求之间sleep

3、代理IP

http://www.goubanjia.com/
快代理
西斯代理

  

posted @ 2019-04-07 10:26  慕沁  阅读(203)  评论(0)    收藏  举报