python每日一题:使用代理服务器爬虫

 proxy的应用主要是由于多次爬虫时,可能造成服务器禁止访问等拒绝操作。使用代理,定时的更换ip,可以较好的避免这一现象。

代理的使用也较简单,建立一个代理类即可。本人使用的服务器网址: https://www.xicidaili.com/

import urllib.request,urllib.parse
import urllib.error
import  http.cookiejar
url='http://www.baidu.com'
proxy=urllib.request.ProxyHandler({'http':'27.25.194.221:9999'})#从代理网站获取的免费代理ip
opener=urllib.request.build_opener(proxy)
try:
   response=opener.open(url)
   print(response.read().decode())
except urllib.error.URLError as e:
    print(e)

当然爬虫时,我们可以使用多个代理ip轮换爬虫来防止服务器拒绝操作。

posted @ 2019-02-15 17:32  fjc0000  阅读(187)  评论(0编辑  收藏  举报