随笔分类 -  爬虫

摘要:在Scrapy中使用Django的ORM异步存储数据 django的orm可以脱离django使用,只要我们将django的环境舒适化就可以了。 在scrapy中使用 首先我们的创建一个django项目,然后在创建一个scrapy项目。 然后再scrapy中初始化django的环境 一般我们在scr 阅读全文
posted @ 2020-12-04 14:43 Ivy丶 阅读(906) 评论(0) 推荐(0)
摘要:scrapy 异步写入mysql和 ItemLoader的基本使用和 ItemLoader的基本使用 使用itemloader能够提高scrapy在解析数据时的便利性和提升代码的可维护性,itemloader和Field的使用可以更好的提升代码的可读性。 class QuanshuSpider(sc 阅读全文
posted @ 2020-08-09 15:08 Ivy丶 阅读(229) 评论(0) 推荐(0)
摘要:scrapy中使用selenium来爬取页面 scrapy中如果下载中间件的 返回的是一个response对象,那么它会直接将该response返回 在这里利用selenium将网页渲染过的html抓取下来,然后在将其转换为scrapy所能解析的response对象 最后在spider中的parse 阅读全文
posted @ 2020-03-14 15:40 Ivy丶 阅读(459) 评论(0) 推荐(0)
摘要:Scrapy-02 item管道: scrapy提供了item对象来对爬取的数据进行保存,它的使用方法和字典类似,不过,相比字典,item多了额外的保护机制,可以避免拼写错误和定义字段错误。 创建的item需要继承scrapy.Item类,并且在里面定义Field字段。(我们爬取的是盗墓笔记,只有文 阅读全文
posted @ 2019-09-05 22:10 Ivy丶 阅读(265) 评论(0) 推荐(0)
摘要:目的:利用scrapy完成盗墓笔记小说的抓取 创建项目: scrapy startproject books cd books scrapy genspider dmbj 编写parse方法 1 # -*- coding: utf-8 -*- 2 import scrapy 3 4 5 class 阅读全文
posted @ 2019-05-18 20:09 Ivy丶 阅读(246) 评论(0) 推荐(0)
摘要:Scrapy入门 1.安装scrapy linux环境下直接执行命令: pip install scrapy 安装完成之后直接在控制台输入:scrapy,如不报错,则安装成功 pip install scrapy 2.创建项目 scrapy startproject <project_name> 这 阅读全文
posted @ 2019-05-17 22:31 Ivy丶 阅读(162) 评论(0) 推荐(0)
摘要:Pyspider pyspider的功能: 提供了方便易用的webUi系统,可视化地编写和调试爬虫 提供爬取进度监控、爬取结果查看、爬虫项目管理等功能 支持多种后端数据库,如mysql,mongodb、redis、sqllite等 支持多种消息队列,如rabbitMq,redis等 提供了优先级控制 阅读全文
posted @ 2019-05-15 23:06 Ivy丶 阅读(366) 评论(0) 推荐(0)
摘要:ubuntu下安装PhantomJS 1.下载: 32位:wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-i686.tar.bz2 64位:wget https://bitbucket.org/ar 阅读全文
posted @ 2019-04-16 15:46 Ivy丶 阅读(2056) 评论(0) 推荐(0)
摘要:当爬虫遇到js加密 我们在做python爬虫的时候经常会遇到许多的反爬措施,js加密就是其中一种。 破解js加密的方法也有很多种: 1.直接驱动浏览器抓取数据,无视js加密。 2.找到本地加密的js代码,使用python的相关库直接运行js代码。 3.找到本地加密的js代码,理清加密逻辑,然后用py 阅读全文
posted @ 2019-03-27 23:24 Ivy丶 阅读(6952) 评论(2) 推荐(1)
摘要:目标url:https://www.baidu.com/s?&wd=python&ie=utf-8 将字典转成url参数 使用urllib.parse的urlencode方法,将字典对象传入返回标准的url参数格式字符串 使用requests 将url参数转成字典 使用urllib.parse的pa 阅读全文
posted @ 2019-03-05 11:54 Ivy丶 阅读(9839) 评论(0) 推荐(1)