爬了个寂寞-2

下面是我自己纯手工敲出来的代码

# -*- codeing = utf-8 -*-
# @Time : 2022/9/7 14:43
# @Name : 王星
# @File :kfc.py
# @Software: PyCharm

import requests
import json

if __name__ == '__main__':
    # 第一步，获取post请求的连接
    url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
#     第二步，ua伪装
    header = {
        'User-Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 104.0.0.0Safari / 537.36'
    }
# 第三步，放入所需要的参数
    op = input("输入一座城市：")
    param = {
        'cname':'',
        'pid':'',
        'keyword': op,
        'pageIndex': '1',
        'pageSize': '10'
    }
    # 第四步，开始爬取
    response = requests.post(url=url,params=param,headers=header)
    # 第五步，准备保存到当前的文件夹
    dic_obj = response.json()

    #    持续化储存
    fileName = op + '.json'
    fp = open(fileName, 'w', encoding='utf-8')
    json.dump(dic_obj, fp=fp, ensure_ascii=False)

    print('over')

　　期间出了一些岔子，比如一开始看那个网页信息，我以为网站是get方法来跳转的，其实ajax大部分都是post请求，其次就是那个header的ua伪装了，如果直接复制的话就会自动在里面添加一些空格非常的烦人，我之前没注意在这一步疯狂报错，我还看不懂错在哪，最后就是我不咋能理解的地方了

我看了这个，他显示的类型是text，但是如果获取可以用json来获取，不是json的数据不可以用json方式来存储吗，有点不咋能理解

数据解析操作

聚焦爬虫

通过context来获取图片

posted @ 2022-09-07 22:15 湖南陈冠希阅读(34) 评论(0) 收藏举报

刷新页面返回顶部

湖南陈冠希

爬了个寂寞-2

自己写的东西要常看

不看就容易忘

公告