爬虫 - 随笔分类 - Ivy丶

在Scrapy中使用Django的ORM异步存储数据

摘要：在Scrapy中使用Django的ORM异步存储数据 django的orm可以脱离django使用，只要我们将django的环境舒适化就可以了。在scrapy中使用首先我们的创建一个django项目，然后在创建一个scrapy项目。然后再scrapy中初始化django的环境一般我们在scr 阅读全文

posted @ 2020-12-04 14:43 Ivy丶阅读(906) 评论(0) 推荐(0)

scrapy 异步写入mysql和 ItemLoader的基本使用和

摘要：scrapy 异步写入mysql和 ItemLoader的基本使用和 ItemLoader的基本使用使用itemloader能够提高scrapy在解析数据时的便利性和提升代码的可维护性，itemloader和Field的使用可以更好的提升代码的可读性。 class QuanshuSpider(sc 阅读全文

posted @ 2020-08-09 15:08 Ivy丶阅读(229) 评论(0) 推荐(0)

scrapy中使用selenium来爬取页面

摘要：scrapy中使用selenium来爬取页面 scrapy中如果下载中间件的返回的是一个response对象，那么它会直接将该response返回在这里利用selenium将网页渲染过的html抓取下来,然后在将其转换为scrapy所能解析的response对象最后在spider中的parse 阅读全文

posted @ 2020-03-14 15:40 Ivy丶阅读(459) 评论(0) 推荐(0)

Scrapy-02-item管道、shell、选择器

摘要：Scrapy-02 item管道： scrapy提供了item对象来对爬取的数据进行保存，它的使用方法和字典类似，不过，相比字典，item多了额外的保护机制，可以避免拼写错误和定义字段错误。创建的item需要继承scrapy.Item类，并且在里面定义Field字段。(我们爬取的是盗墓笔记，只有文阅读全文

posted @ 2019-09-05 22:10 Ivy丶阅读(265) 评论(0) 推荐(0)

Scrapy-01-追踪爬取

摘要：目的：利用scrapy完成盗墓笔记小说的抓取创建项目： scrapy startproject books cd books scrapy genspider dmbj 编写parse方法 1 # -*- coding: utf-8 -*- 2 import scrapy 3 4 5 class 阅读全文

posted @ 2019-05-18 20:09 Ivy丶阅读(246) 评论(0) 推荐(0)

Scrapy入门

摘要：Scrapy入门 1.安装scrapy linux环境下直接执行命令： pip install scrapy 安装完成之后直接在控制台输入：scrapy，如不报错，则安装成功 pip install scrapy 2.创建项目 scrapy startproject <project_name> 这阅读全文

posted @ 2019-05-17 22:31 Ivy丶阅读(162) 评论(0) 推荐(0)

Pyspider

摘要：Pyspider pyspider的功能：提供了方便易用的webUi系统，可视化地编写和调试爬虫提供爬取进度监控、爬取结果查看、爬虫项目管理等功能支持多种后端数据库，如mysql，mongodb、redis、sqllite等支持多种消息队列，如rabbitMq，redis等提供了优先级控制阅读全文

posted @ 2019-05-15 23:06 Ivy丶阅读(366) 评论(0) 推荐(0)

ubuntu下安装无界面浏览器

摘要：ubuntu下安装PhantomJS 1.下载： 32位：wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-i686.tar.bz2 64位：wget https://bitbucket.org/ar 阅读全文

posted @ 2019-04-16 15:46 Ivy丶阅读(2056) 评论(0) 推荐(0)

当爬虫遇到js加密

摘要：当爬虫遇到js加密我们在做python爬虫的时候经常会遇到许多的反爬措施，js加密就是其中一种。破解js加密的方法也有很多种： 1.直接驱动浏览器抓取数据，无视js加密。 2.找到本地加密的js代码，使用python的相关库直接运行js代码。 3.找到本地加密的js代码，理清加密逻辑，然后用py 阅读全文

posted @ 2019-03-27 23:24 Ivy丶阅读(6952) 评论(2) 推荐(1)

url参数和字典的相互转化

摘要：目标url：https://www.baidu.com/s?&wd=python&ie=utf-8 将字典转成url参数使用urllib.parse的urlencode方法，将字典对象传入返回标准的url参数格式字符串使用requests 将url参数转成字典使用urllib.parse的pa 阅读全文

posted @ 2019-03-05 11:54 Ivy丶阅读(9839) 评论(0) 推荐(1)

Ivy丶

随笔分类 - 爬虫

公告