肯德基玩具又双叒火了,在动感的配乐下,可达鸭交叉举手的跳舞造型添上几分蠢萌,加上网友们搞怪的创意,不同类型的可达鸭图片和视频在网络上迅速出圈。可达鸭爆红后,也形成了“一鸭难抢”的局面。多家肯德基门店玩具断货,各类二手平台玩具交易价格翻倍,有的竟然炒到500块钱一个。
很多赶热度的朋友就会很积极的参与这样的玩具活动,去肯德基的门店咨询,那么我们今天就以爬取肯德基某一地区的餐厅数量以及其具体信息为基本需求,为大家整理一份数据信息。我们首先进入到需要爬取的静态页面,其网址为: http://www.kfc.com.cn/kfccda/storelist/index.aspx,并切换到我们需要访问的地区。本次爬取的难点是对多个页面进行爬取,所以我们要考虑到目标网站的反爬机制,应对这种情况一般我们只要加上代理IP就可以,简单的实现过程如下:
#! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
这个分享教程对一些初学者挺有帮助的,特别是学会爬虫后遇到反爬机制的情况下,文章的代理IP很有必要,好的代理IP更有需要,有需要的可以咨询这里https://www.16yun.cn/#banner。
浙公网安备 33010602011771号