辽宁又有病例了,中招的是位沈阳大爷。大家被新闻震一懵的同时,又照例研究起大爷的行程轨迹。结果全国人民发现了一位沈阳民间美食家。大爷平均每天下两次馆子,鸡架、炖肉、抻面,硬把流调记录整成了沈阳美食攻略,来旅游直接照着吃一圈,没毛病。三天三次鸡架的好胃口,更让人发出天问:沈阳鸡架到底有多好吃?每次流调记录都有它?

今天通过python来对沈阳的美食店进行一次数据的采集,通过数据来分享下那么我们没吃过甚至没有听过的美食都有多少人去享用。对一个地方美食的数据获取最直接的方式就是通过美团。但是想现在的美团网站之严格,想要获取点数据,爬虫的歌方面都需要做好准备,尤其是代理ip。通过多年经验和多家代理的测试对比,终于有一家让人满意的代理商,那就是亿牛云代理。我们主要分享下通过爬虫代理动态转发模式的来采集一次数据,在获取数据的同时还可以学习下新的代理使用模式。

完成代码如下:

#! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://www.meituan.com"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://www.meituan.com"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text

posted on 2021-05-17 16:46  小橙子11  阅读(63)  评论(0)    收藏  举报