12 2018 档案
摘要:在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及会话和Cookies的相关知识,本节就来揭开它
阅读全文
摘要:前言: 本次项目分为两部分。 第一部分编写的爬虫主要功能为爬取小说相关信息,例如小说标题、作者、简介以及小说链接等,并保存至mongoDB。随后对其增加了交互式界面,实现了小说种类的分类以及页面数限制,最后可获得感兴趣小说的完整小说内容并且自动创建文件夹保存至本地。 第二部分编写的爬虫主要是实现大规
阅读全文
摘要:前言: 本次项目是使用scrapy框架,爬取豆瓣电影TOP250的相关信息。其中涉及到代理IP,随机UA代理,最后将得到的数据保存到mongoDB中。本次爬取的内容实则不难。主要是熟悉scrapy相关命令以及理解框架各部分的作用。 1、本次目标 爬取豆瓣电影TOP250的信息,将得到的数据保存到mo
阅读全文
摘要:前言: 写本次项目主要是忙里偷闲想看看漫画,决定写个爬虫练练手。爬取的过程中还是遇到了一些问题。所以这一次项目主要同样是用Selenium来模拟浏览器操作来获取全部图片,用xpath来解析出图片,最后将图片保存到本地。 1、本次目标 利用Selenium爬取漫画图片,将图片保存到本地。 2. 准备工
阅读全文

浙公网安备 33010602011771号