随笔分类 -  2020寒假

只有注册用户登录后才能阅读该文。
posted @ 2020-02-14 22:43 K_Y 阅读(1) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-02-12 21:54 K_Y 阅读(2) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-02-11 22:14 K_Y 阅读(2) 评论(0) 推荐(0)
摘要:总结一下今天的情况; 因为今天又爬取数据了,所以又学到了一个点关于scrapy的: scrapy.Request和response.follow的区别: 今天重点说的是response.follow函数,其实他的作用和scrapy.request是一样的但是也有不同, Response.follow 阅读全文
posted @ 2020-02-10 21:08 K_Y 阅读(118) 评论(0) 推荐(0)
摘要:昨天爬取了丁香园的实时更新的动态信息,但是里面有好多对项目无关的信息(如下图),所以就要进行数据的清洗, 想到了python的正则表达式,就对正则表达式进行了学习,现进行如下总结: 首先,python中的正则表达式大致分为以下几部分: 元字符 模式 函数 re 内置对象用法 分组用法 环视用法 一、 阅读全文
posted @ 2020-02-09 22:57 K_Y 阅读(110) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-02-09 00:33 K_Y 阅读(2) 评论(0) 推荐(0)
摘要:今天接到一个新任务,爬取新冠肺炎各个城市的每日新增确诊,疑似、治愈人数,并制作迁移图像,我首先想到的是丁香医生这个网站 (https://ncov.dxy.cn/ncovh5/view/pneumonia_timeline?whichFrom=peopleapp) 查看源码发现,代码构造很简单,就觉 阅读全文
posted @ 2020-02-09 00:05 K_Y 阅读(141) 评论(0) 推荐(0)
摘要:经过几天的学习,今天终于完成了首都之窗的数据爬取,现在进行一下总结: 首都之窗的爬取我进行里两步: 一,使用selenium模拟浏览器翻页,爬取列表页上的信息,主要是各个详情页的url(详细说明请看上篇博客) spider.py 1 # -*- coding: utf-8 -*- 2 import 阅读全文
posted @ 2020-02-07 22:51 K_Y 阅读(114) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-02-06 23:50 K_Y 阅读(1) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-02-05 23:14 K_Y 阅读(1) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-02-02 23:08 K_Y 阅读(1) 评论(0) 推荐(0)
摘要:虚拟机中的Spark环境,年前早早已经安装好了,在今天开始了spark的学习,首先按照基础实验步骤开始进行; 一、今天首先完成了实验一,在实验一的的时候遇到的主要问题是,我的虚拟环境是Ubuntu14.04,在终端输入中文时,会报 [Invalid UTF-8]的错误,就导致一部分目录依靠命令行就进 阅读全文
posted @ 2020-02-01 23:09 K_Y 阅读(101) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-01-31 23:11 K_Y 阅读(3) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-01-30 22:45 K_Y 阅读(3) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-01-29 22:36 K_Y 阅读(3) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-01-28 23:30 K_Y 阅读(3) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-01-27 22:38 K_Y 阅读(1) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-01-26 22:13 K_Y 阅读(1) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2020-01-25 22:44 K_Y 阅读(3) 评论(0) 推荐(0)