随笔分类 - 2020寒假
摘要:总结一下今天的情况; 因为今天又爬取数据了,所以又学到了一个点关于scrapy的: scrapy.Request和response.follow的区别: 今天重点说的是response.follow函数,其实他的作用和scrapy.request是一样的但是也有不同, Response.follow
阅读全文
摘要:昨天爬取了丁香园的实时更新的动态信息,但是里面有好多对项目无关的信息(如下图),所以就要进行数据的清洗, 想到了python的正则表达式,就对正则表达式进行了学习,现进行如下总结: 首先,python中的正则表达式大致分为以下几部分: 元字符 模式 函数 re 内置对象用法 分组用法 环视用法 一、
阅读全文
摘要:今天接到一个新任务,爬取新冠肺炎各个城市的每日新增确诊,疑似、治愈人数,并制作迁移图像,我首先想到的是丁香医生这个网站 (https://ncov.dxy.cn/ncovh5/view/pneumonia_timeline?whichFrom=peopleapp) 查看源码发现,代码构造很简单,就觉
阅读全文
摘要:经过几天的学习,今天终于完成了首都之窗的数据爬取,现在进行一下总结: 首都之窗的爬取我进行里两步: 一,使用selenium模拟浏览器翻页,爬取列表页上的信息,主要是各个详情页的url(详细说明请看上篇博客) spider.py 1 # -*- coding: utf-8 -*- 2 import
阅读全文
摘要:虚拟机中的Spark环境,年前早早已经安装好了,在今天开始了spark的学习,首先按照基础实验步骤开始进行; 一、今天首先完成了实验一,在实验一的的时候遇到的主要问题是,我的虚拟环境是Ubuntu14.04,在终端输入中文时,会报 [Invalid UTF-8]的错误,就导致一部分目录依靠命令行就进
阅读全文

浙公网安备 33010602011771号