爬虫 - 随笔分类 - 梁少华

分布式爬虫

摘要：概念：多台机器上可以执行同一个爬虫程序，实现网站数据的分布爬取。原生的scrapy是不可以实现分布式爬虫？ a. 调度器无法共享 b. 管道无法共享 crapy-redis组件专门为scrapy开发的一套组件。该组件可以让scrapy实现分布式。下载：pip install scrapy-re 阅读全文

posted @ 2019-04-15 16:45 梁少华阅读(265) 评论(0) 推荐(0)

Scrapy之CrawlSpider

摘要：问题：如果我们想要对某一个网站的全站数据进行爬取？解决方案： 1. 手动请求的发送 2. CrawlSpider（推荐） CrawlSpider概念：CrawlSpider其实就是Spider的一个子类。CrawlSpider功能更加强大（链接提取器，规则解析器）。创建：爬虫相关操作配置阅读全文

posted @ 2019-04-15 16:33 梁少华阅读(286) 评论(0) 推荐(0)

Scrapy核心组件

摘要：• 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) • 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网阅读全文

posted @ 2019-04-12 17:01 梁少华阅读(229) 评论(0) 推荐(0)

scrapy之持久化存储

摘要：下面演示基于管道存储到mysql、redis、和本地文件代码实现流程 1. 将解析到的页面数据存储到items对象2. 使用yield关键字将items提交给管道文件进行处理3. 在管道文件中编写代码完成数据存储的操作4. 在配置文件中开启管道操作代码实现 items：存储解析到的页面数据 pi 阅读全文

posted @ 2019-04-12 17:00 梁少华阅读(290) 评论(0) 推荐(0)

Scrapy框架的基本使用

摘要：安装基础使用 1. 创建一个工程：scrapy startproject 2. 在工程目录下创建一个爬虫文件 3. 对应的文件中编写爬虫程序来完成爬虫的相关操作 4. 配置文件的编写（settings） USER_AGENT：伪装身份用的 ROBOTSTXT_OBEY：默认是True，改成Fals 阅读全文

posted @ 2019-04-12 16:37 梁少华阅读(201) 评论(0) 推荐(0)

爬虫之request模块高级

摘要：一、cookie&session cookie：服务器端使用cookie来记录客户端的状态信息实现流程：注意：session对象也可以发送请求，并且会将cookie对象进行自动存储 cookie&session演示二、代理操作第三方代理本体执行相关的事物。生活：代购、微商、中介为什么要使用阅读全文

posted @ 2019-04-03 11:04 梁少华阅读(271) 评论(0) 推荐(0)

爬虫之requests模块基础

摘要：一、request模块介绍 1. 什么是request模块 2. 为什么使用request模块 3. request如何被使用 3.通过5个基于request模块的爬虫项目对该模块进行系统学习和巩固二、项目实战 3. 基于request模块发起一个get请求需求：爬取搜狗首页的页面数据 resp 阅读全文

posted @ 2019-04-03 10:33 梁少华阅读(456) 评论(0) 推荐(0)

爬虫之urllib模块

摘要：1. urllib模块介绍 python自带的一个基于爬虫的模块。作用：可以使用代码模拟浏览器发起请求。经常使用到的子模块：request，parse。使用流程：指定URL。针对指定的URL发起了一个请求。获取页面数据。持久化储存。 2. 爬取搜狗首页的页面数据 # 需求：爬取搜狗首页阅读全文

posted @ 2019-04-03 10:23 梁少华阅读(240) 评论(0) 推荐(0)

梁少华

随笔分类 - 爬虫

公告