随笔分类 - 爬虫项目
摘要:前言: 本次项目分为两部分。 第一部分编写的爬虫主要功能为爬取小说相关信息,例如小说标题、作者、简介以及小说链接等,并保存至mongoDB。随后对其增加了交互式界面,实现了小说种类的分类以及页面数限制,最后可获得感兴趣小说的完整小说内容并且自动创建文件夹保存至本地。 第二部分编写的爬虫主要是实现大规
阅读全文
摘要:前言: 本次项目是使用scrapy框架,爬取豆瓣电影TOP250的相关信息。其中涉及到代理IP,随机UA代理,最后将得到的数据保存到mongoDB中。本次爬取的内容实则不难。主要是熟悉scrapy相关命令以及理解框架各部分的作用。 1、本次目标 爬取豆瓣电影TOP250的信息,将得到的数据保存到mo
阅读全文
摘要:前言: 写本次项目主要是忙里偷闲想看看漫画,决定写个爬虫练练手。爬取的过程中还是遇到了一些问题。所以这一次项目主要同样是用Selenium来模拟浏览器操作来获取全部图片,用xpath来解析出图片,最后将图片保存到本地。 1、本次目标 利用Selenium爬取漫画图片,将图片保存到本地。 2. 准备工
阅读全文
摘要:前言: 本次爬取的目标采用的Ajax方式加载页面信息,并且这些Ajax的接口参数比较复杂,想要构造Ajax参数模拟请求比较困难。对于这种页面,最方便快捷的抓取方法就是通过Selenium。使用Selenium来模拟浏览器操作,来抓取京东的商品信息,并将最后的结果保存至MongoDB中。 1. 本次目
阅读全文
摘要:前言: 学习python3爬虫有一段时间了,熟悉了爬虫的一些基本原理和基本库的使用,本次就准备利用requests库和正则表达式来抓取猫眼电影排行TOP100的相关内容。 1、本次目标: 爬取猫眼电影排行TOP100的电影相关信息,包括:名称、图片、演员、时间、评分,排名。提取站点的URL为http
阅读全文

浙公网安备 33010602011771号