linzeX

数据采集第一次作业

作业一

  • 代码链接
    ----作业1-----

    心得体会

  • 难度不大,找到对应标签内容然后输入正则匹配内容即可 主要步骤为 1)根据地址获取网页内容并解码; 2)正则匹配你需要的字符串;3)按格式输出;
    要熟知.format()的格式化输出方法,在输出中文内容时需要进行全角字符和半角字符的转化;

作业二

  • 用requests和Beautiful Soup库方法设计爬取https://datacenter.mee.gov.cn/aqiweb2/ AQI实时报。
    输出内容

    序号 城市 AQI PM2.5 SO2 No2 Co
    1 北京 10 10 10 10 10
    2 ~ ~ ~ ~ ~ ~

    结果展示

  • 代码链接
    ------作业2-----

    心得体会

  • 难度上和第一题差不多;
    要注意本网页的编码方式是gbk不能用utf-8;

作业三

  • 使用urllib和requests和re爬取一个给定网页(https://news.fzu.edu.cn/)爬取该网站下的所有图片
    输出内容
    将自选网页内的所有jpg文件保存在一个文件夹中

    结果展示


  • 代码链接
    -----作业3-----

    心得体会

  • 注意到所有图片链接都是在img标签下的;
    网页中看到有定义函数返回连续的图片链接,但是我找不到这些图片在哪可能会有漏掉的情况;
    保存图片需要在图片链接前加上字符串http:这次爬取的是福大网站上的所以要加上https://news.fzu.edu.cn;
    题目要我们保存jpg格式图片,所以注意对爬取的图片类型进行筛选;

posted on 2021-09-30 23:58  linzeX  阅读(46)  评论(0编辑  收藏  举报

导航