爬虫 - 随笔分类 - 高汤

下载安装爬虫包

摘要：下载爬虫相关包下载二进制包： https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载lxml、Twisted、pywin32、Scrapy 安装：第一步： pip install -i https://pypi.douban.com/simple lxml- 阅读全文

posted @ 2020-06-26 23:24 高汤阅读(299) 评论(0) 推荐(0)

把起始URL放到Redis中去

摘要：把起始URL放到redis中去 from scrapy_redis.spiders import RedisSpider # 继承RedisSpider class ChoutiSpider(RedisSpider): name = 'chouti' allowed_domains = ['chou 阅读全文

posted @ 2020-06-21 19:13 高汤阅读(641) 评论(0) 推荐(0)

去重配置和调度器配置代码优先级

摘要：去重的配置： DUPEFILTER_KEY = 'dupefilter:%(timestamp)s' DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 调度器配置： SCHEDULER = "scrapy_redis.schedul 阅读全文

posted @ 2020-06-21 19:12 高汤阅读(368) 评论(0) 推荐(0)

爬虫流程

摘要：整个爬虫流程 1、scrapy crawl chouti --nolog 2、找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调试器对象 - 执行Scheduler.from_crawler - 执行Scheduler.from_set 阅读全文

posted @ 2020-06-21 19:10 高汤阅读(159) 评论(0) 推荐(0)

scrapy_redis组件url去重（有部分自定义）

摘要：scrapy_redis组件去重掉url settings.py # 去重类 # DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' scrapy_redis组件默认的自带的的类 DUPEFILTER_CLASS = 'xdb.dup 阅读全文

posted @ 2020-06-14 23:22 高汤阅读(541) 评论(0) 推荐(0)

下载中间件、爬虫中间件

摘要：组件以及执行流程 -引擎找到要执行爬虫，并执行爬虫的start_requests 方法，并得到一个迭代器。 -迭代器循环时会获取Request对象，而Request对象中封装了要访问的URL和回调函数。 -将所有的Request对象（任务）放到调试器中，用于以后被下载器下载 -下载器云调试器中获取阅读全文

posted @ 2020-06-14 15:48 高汤阅读(227) 评论(0) 推荐(0)

起始url的调度原理

摘要：# -*- coding: utf-8 -*- import scrapy from xdb.items import XdbItem from scrapy.dupefilters import RFPDupeFilter from scrapy.http.cookies import Cooki 阅读全文

posted @ 2020-06-13 23:35 高汤阅读(151) 评论(0) 推荐(0)

自定义代理IP

摘要：自定义proxy.py import base64 import random from urllib.parse import unquote, urlunparse from urllib.request import _parse_proxy from scrapy.utils.python 阅读全文

posted @ 2020-06-13 23:20 高汤阅读(261) 评论(0) 推荐(0)

爬虫深度控制

摘要：深度配置文件： # 限制深度 DEPTH_LIMIT = 3 阅读全文

posted @ 2020-06-11 22:30 高汤阅读(227) 评论(0) 推荐(0)

手动处理cookie（实现一个点赞爬虫）

摘要：import scrapy from scrapy.http.cookies import CookieJar from scrapy.http import Request from urllib.parse import urlencode class ChoutiSpider(scrapy.S 阅读全文

posted @ 2020-06-11 22:28 高汤阅读(372) 评论(0) 推荐(0)

dupefilter对访问的url做去重

摘要：dupefilter对访问的url做去重第一步：在爬虫文件中chouti.py中 import scrapy from xdb.items import XdbItem from scrapy.dupefilters import RFPDupeFilter class ChoutiSpider 阅读全文

posted @ 2020-06-10 23:01 高汤阅读(246) 评论(0) 推荐(0)

简单实现一个初步的爬虫

摘要：Django: # 创建project django-admin startproject mysite cd mysite # 创建app python manage.py startapp app01 python manage.py startapp app02 # 启动项目 python m 阅读全文

posted @ 2020-06-08 00:20 高汤阅读(82) 评论(0) 推荐(0)

高汤

随笔分类 - 爬虫

公告