爬了个寂寞-2

下面是我自己纯手工敲出来的代码

# -*- codeing = utf-8 -*-
# @Time : 2022/9/7 14:43
# @Name : 王星
# @File :kfc.py
# @Software: PyCharm

import requests
import json

if __name__ == '__main__':
    # 第一步,获取post请求的连接
    url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
#     第二步,ua伪装
    header = {
        'User-Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 104.0.0.0Safari / 537.36'
    }
# 第三步,放入所需要的参数
    op = input("输入一座城市:")
    param = {
        'cname':'',
        'pid':'',
        'keyword': op,
        'pageIndex': '1',
        'pageSize': '10'
    }
    # 第四步,开始爬取
    response = requests.post(url=url,params=param,headers=header)
    # 第五步,准备保存到当前的文件夹
    dic_obj = response.json()

    #    持续化储存
    fileName = op + '.json'
    fp = open(fileName, 'w', encoding='utf-8')
    json.dump(dic_obj, fp=fp, ensure_ascii=False)

    print('over')

  期间出了一些岔子,比如一开始看那个网页信息,我以为网站是get方法来跳转的,其实ajax大部分都是post请求,其次就是那个header的ua伪装了,如果直接复制的话就会自动在里面添加一些空格非常的烦人,我之前没注意在这一步疯狂报错,我还看不懂错在哪,最后就是我不咋能理解的地方了

 

 我看了这个,他显示的类型是text,但是如果获取可以用json来获取,不是json的数据不可以用json方式来存储吗,有点不咋能理解

 

 

 数据解析操作

 

 聚焦爬虫

 

 17

通过context来获取图片

 

posted @ 2022-09-07 22:15  湖南陈冠希  阅读(25)  评论(0)    收藏  举报