宓海 - 博客园

2020年6月23日

摘要： Scrapy的框架如图所示，这是从MOOC上获取图表示例，下面介绍具体都是干什么的。架构介绍 & Engine。是框架的核心，控制所有模块之间的数据流动，然后根据各个模块出现的时间进行触发。不需进行修改。 & Downloader。下载器。获取请求并提交请求，下载网页内容，并将网页内容返回给Sp 阅读全文

posted @ 2020-06-23 11:21 宓海阅读(194) 评论(0) 推荐(0)

python非关系型数据库存储——MongoDB 的储存

摘要： MongoDB是一个基于分布式文件存储的开源数据库系统，内容储存类似于JSON对象，它的字段值可以包含其他文档、数组及文档数组。下面介绍一点基本操作。 1.安装首先需要安装MongoDB并启动了服务，再安装PyMongo库。对此，网上有很多教程，在这里推荐一个，里面也有快速下载的地址，点击这里. 阅读全文

posted @ 2020-06-23 11:15 宓海阅读(173) 评论(0) 推荐(0)

2020年6月2日

树莓派4B获取IP地址的几种简易方法

摘要：首先声明一下，使用的是Paspbian系统，其实其他系统和本文说的获取IP地址关系也不大。 1.当你有路由器，有PC客户端的情况，你把你的树莓派用网线将其连接起来。你可以借助这个软件，advanced IP scanner，进行扫描如图，此时192.168.1.102是我所使用树莓派的Ip地址，而阅读全文

posted @ 2020-06-02 08:09 宓海阅读(5193) 评论(3) 推荐(0)

2020年5月25日

python中几个双下划线用法的含义

摘要： _ _ init() _ _(self[,...]) 我们有时在类定义写__init()__方法，但是有时又没有。__init()__方法相当于其他面向对象的编程语言中的构造方法，也就是类在实例化成对象时首先会调用的一个方法。当我们写代码时需要进行初始化的时候，我们才去写 _ _ init() _ 阅读全文

posted @ 2020-05-25 16:32 宓海阅读(853) 评论(0) 推荐(1)

2020年5月18日

Python中的时间与日期

摘要：本文简要介绍datetime，time模块的简要用法。 datetime模块 datetime模块主要有四个主要的对象。 ==date== 处理年、月、日 ==time==处理时、分、秒、微秒 ==datetime==处理日期和时间同时出现的情况 ==timedelta==处理日期或时间间隔下面给阅读全文

posted @ 2020-05-18 18:41 宓海阅读(320) 评论(0) 推荐(0)

2020年5月11日

解决爬虫中中文编码问题

摘要：我们在爬虫时时常会遇到一些网页上的中文无法爬取到文件的问题，因为会出现乱码，本文就简要说明一些可能出现的中文编码问题。获取网页的中文显示乱码先放一个实例，我们爬取w3school官网上的一小段文字。显然这不是我们想要的东西，这是因为我们代码中获得的网页响应体r和网站编码的编程方式不同，从上面我阅读全文

posted @ 2020-05-11 17:28 宓海阅读(654) 评论(0) 推荐(1)

2020年5月4日

网络爬虫文件存取（TXT，JSON，CSV）特点与用法

摘要： TXT文本存储 1.基本实例首先，我们采用selenium的方法爬取新闻联播文字稿的首页，这是因为这个网页比较简单，本文重点在文件存取上。运行程序，可以发现本地生成了一个文件，内容如下。 2.打开方式刚才的实例中，open（）方法的第二个参数设置的是a+，这样在每次写入文件是以追加写入的方式。阅读全文

posted @ 2020-05-04 17:15 宓海阅读(708) 评论(0) 推荐(0)

2020年4月27日

Python网络爬虫Selenium的简单使用

摘要： Python网络爬虫-Selenium 说一下个人对Selenium的看法，它是在爬虫中比较好用的一个工具。然后，想要学习爬虫，如果比较详细的了解web开发的前端知识会更加容易上手，时间不够充裕，仅仅了解html的相关知识也是够用的。准备工作：使用它肯定先要安装它，对于Selenium的安装推荐阅读全文

posted @ 2020-04-27 21:53 宓海阅读(299) 评论(0) 推荐(0)

宓海

公告