随笔分类 - 爬虫
摘要:在Scrapy中使用Django的ORM异步存储数据 django的orm可以脱离django使用,只要我们将django的环境舒适化就可以了。 在scrapy中使用 首先我们的创建一个django项目,然后在创建一个scrapy项目。 然后再scrapy中初始化django的环境 一般我们在scr
阅读全文
摘要:scrapy 异步写入mysql和 ItemLoader的基本使用和 ItemLoader的基本使用 使用itemloader能够提高scrapy在解析数据时的便利性和提升代码的可维护性,itemloader和Field的使用可以更好的提升代码的可读性。 class QuanshuSpider(sc
阅读全文
摘要:scrapy中使用selenium来爬取页面 scrapy中如果下载中间件的 返回的是一个response对象,那么它会直接将该response返回 在这里利用selenium将网页渲染过的html抓取下来,然后在将其转换为scrapy所能解析的response对象 最后在spider中的parse
阅读全文
摘要:Scrapy-02 item管道: scrapy提供了item对象来对爬取的数据进行保存,它的使用方法和字典类似,不过,相比字典,item多了额外的保护机制,可以避免拼写错误和定义字段错误。 创建的item需要继承scrapy.Item类,并且在里面定义Field字段。(我们爬取的是盗墓笔记,只有文
阅读全文
摘要:目的:利用scrapy完成盗墓笔记小说的抓取 创建项目: scrapy startproject books cd books scrapy genspider dmbj 编写parse方法 1 # -*- coding: utf-8 -*- 2 import scrapy 3 4 5 class
阅读全文
摘要:Scrapy入门 1.安装scrapy linux环境下直接执行命令: pip install scrapy 安装完成之后直接在控制台输入:scrapy,如不报错,则安装成功 pip install scrapy 2.创建项目 scrapy startproject <project_name> 这
阅读全文
摘要:Pyspider pyspider的功能: 提供了方便易用的webUi系统,可视化地编写和调试爬虫 提供爬取进度监控、爬取结果查看、爬虫项目管理等功能 支持多种后端数据库,如mysql,mongodb、redis、sqllite等 支持多种消息队列,如rabbitMq,redis等 提供了优先级控制
阅读全文
摘要:ubuntu下安装PhantomJS 1.下载: 32位:wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-i686.tar.bz2 64位:wget https://bitbucket.org/ar
阅读全文
摘要:当爬虫遇到js加密 我们在做python爬虫的时候经常会遇到许多的反爬措施,js加密就是其中一种。 破解js加密的方法也有很多种: 1.直接驱动浏览器抓取数据,无视js加密。 2.找到本地加密的js代码,使用python的相关库直接运行js代码。 3.找到本地加密的js代码,理清加密逻辑,然后用py
阅读全文
摘要:目标url:https://www.baidu.com/s?&wd=python&ie=utf-8 将字典转成url参数 使用urllib.parse的urlencode方法,将字典对象传入返回标准的url参数格式字符串 使用requests 将url参数转成字典 使用urllib.parse的pa
阅读全文

浙公网安备 33010602011771号