爬虫 - 随笔分类 - 一颗桃子t

基于Scrapy框架的增量式爬虫

摘要：概述概念：监测核心技术：去重基于 redis 的一个去重适合使用增量式的网站：基于深度爬取的对爬取过的页面url进行一个记录（记录表）基于非深度爬取的记录表：爬取过的数据对应的数据指纹数据指纹：原始数据的一组唯一标识数据 –> 数据指纹 –> 库中查询 hashlib 所谓的记录阅读全文

posted @ 2019-10-24 21:40 一颗桃子t 阅读(443) 评论(0) 推荐(0)

Scrapy+redis实现分布式爬虫

摘要：概述什么是分布式爬虫需要搭建一个由n台电脑组成的机群，然后在每一台电脑中执行同一组程序，让其对同一网络资源进行联合且分布的数据爬取。原生Scrapy无法实现分布式的原因原生Scrapy中调度器不可以被共享每一台机器都拥有一个调度器，如果一个机群共享一个调度器就可以了。原生Scrapy中管阅读全文

posted @ 2019-10-24 20:17 一颗桃子t 阅读(1410) 评论(0) 推荐(0)

Scrapy框架——使用CrawlSpider爬取数据

摘要：引言本篇介绍Crawlspider，相比于Spider，Crawlspider更适用于批量爬取网页 Crawlspider Crawlspider适用于对网站爬取批量网页，相对比Spider类，CrawSpider主要使用规则（rules）来提取链接，通过定义一组规则为跟踪链接提供了遍历的机制。阅读全文

posted @ 2019-10-20 21:28 一颗桃子t 阅读(785) 评论(0) 推荐(0)

基于scrapy框架的爬虫

摘要：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。 scrapy 框架高性能的网络请求高性能的数据解析高性能的持久化存储深度爬取全站爬取分布式中间件请求传参环境的安装 mac/linux：pip i 阅读全文

posted @ 2019-10-20 21:27 一颗桃子t 阅读(610) 评论(0) 推荐(0)

asyncio模块实现单线程-多任务的异步协程

摘要：本篇介绍基于asyncio模块，实现单线程-多任务的异步协程基本概念协程函数协程函数: 定义形式为 async def 的函数; aysnc 在Python3.5+版本新增了aysnc和await关键字，这两个语法糖让我们非常方便地定义和使用协程。如果一个函数的定义被async修饰后，则该函阅读全文

posted @ 2019-10-20 21:25 一颗桃子t 阅读(1043) 评论(0) 推荐(0)

基于request的爬虫练习

摘要：引言概述概念：基于网络请求的模块作用：用来模拟浏览器发请求，从而实现爬虫通用爬虫步骤：指定url 请求发送：get返回的是一个响应对象获取响应数据: text返回的是字符串形式的响应数据持久化存储爬取搜狗首页的页面源码数据 1234567891011 import requests 阅读全文

posted @ 2019-10-10 09:39 一颗桃子t 阅读(652) 评论(0) 推荐(0)

图片懒加载

摘要：一.图片懒加载什么是图片懒加载？案例分析：抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from lxml import etree if __name 阅读全文

posted @ 2019-10-08 19:16 一颗桃子t 阅读(402) 评论(0) 推荐(0)

Scrapy、Scrapy-redis组件

摘要：Scrapy Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Ser 阅读全文

posted @ 2019-10-03 20:13 一颗桃子t 阅读(393) 评论(0) 推荐(0)

高性能异步爬虫

摘要：背景其实爬虫的本质就是client发请求批量获取server的响应数据，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，如果这N个任务都是纯计算的任务，那么该线程对cpu 阅读全文

posted @ 2019-09-28 16:06 一颗桃子t 阅读(317) 评论(0) 推荐(0)

一颗桃子t

随笔分类 - 爬虫

公告