摘要: Scrapy的框架如图所示,这是从MOOC上获取图表示例,下面介绍具体都是干什么的。 架构介绍 & Engine。是框架的核心,控制所有模块之间的数据流动,然后根据各个模块出现的时间进行触发。不需进行修改。 & Downloader。 下载器。获取请求并提交请求,下载网页内容,并将网页内容返回给Sp 阅读全文
posted @ 2020-06-23 11:21 宓海 阅读(162) 评论(0) 推荐(0) 编辑
摘要: MongoDB是一个基于分布式文件存储的开源数据库系统,内容储存类似于JSON对象,它的字段值可以包含其他文档、数组及文档数组。下面介绍一点基本操作。 1.安装 首先需要安装MongoDB并启动了服务,再安装PyMongo库。对此,网上有很多教程,在这里推荐一个,里面也有快速下载的地址,点击这里. 阅读全文
posted @ 2020-06-23 11:15 宓海 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 首先声明一下,使用的是Paspbian系统,其实其他系统和本文说的获取IP地址关系也不大。 1.当你有路由器,有PC客户端的情况,你把你的树莓派用网线将其连接起来。你可以借助这个软件,advanced IP scanner,进行扫描 如图,此时192.168.1.102是我所使用树莓派的Ip地址,而 阅读全文
posted @ 2020-06-02 08:09 宓海 阅读(4482) 评论(3) 推荐(0) 编辑
摘要: _ _ init() _ _(self[,...]) 我们有时在类定义写__init()__方法,但是有时又没有。__init()__方法相当于其他面向对象的编程语言中的构造方法,也就是类在实例化成对象时首先会调用的一个方法。当我们写代码时需要进行初始化的时候,我们才去写 _ _ init() _ 阅读全文
posted @ 2020-05-25 16:32 宓海 阅读(817) 评论(0) 推荐(1) 编辑
摘要: 本文简要介绍datetime,time模块的简要用法。 datetime模块 datetime模块主要有四个主要的对象。 ==date== 处理年、月、日 ==time==处理时、分、秒、微秒 ==datetime==处理日期和时间同时出现的情况 ==timedelta==处理日期或时间间隔 下面给 阅读全文
posted @ 2020-05-18 18:41 宓海 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 我们在爬虫时时常会遇到一些网页上的中文无法爬取到文件的问题,因为会出现乱码,本文就简要说明一些可能出现的中文编码问题。 获取网页的中文显示乱码 先放一个实例,我们爬取w3school官网上的一小段文字。 显然这不是我们想要的东西,这是因为我们代码中获得的网页响应体r和网站编码的编程方式不同,从上面我 阅读全文
posted @ 2020-05-11 17:28 宓海 阅读(586) 评论(0) 推荐(1) 编辑
摘要: TXT文本存储 1.基本实例 首先,我们采用selenium的方法爬取新闻联播文字稿的首页,这是因为这个网页比较简单,本文重点在文件存取上。 运行程序,可以发现本地生成了一个文件,内容如下。 2.打开方式 刚才的实例中,open()方法的第二个参数设置的是a+,这样在每次写入文件是以追加写入的方式。 阅读全文
posted @ 2020-05-04 17:15 宓海 阅读(613) 评论(0) 推荐(0) 编辑
摘要: Python网络爬虫-Selenium 说一下个人对Selenium的看法,它是在爬虫中比较好用的一个工具。然后,想要学习爬虫,如果比较详细的了解web开发的前端知识会更加容易上手,时间不够充裕,仅仅了解html的相关知识也是够用的。 准备工作: 使用它肯定先要安装它,对于Selenium的安装推荐 阅读全文
posted @ 2020-04-27 21:53 宓海 阅读(251) 评论(0) 推荐(0) 编辑