随笔分类 -  爬虫

摘要:下载爬虫相关包 下载二进制包: https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载lxml、Twisted、pywin32、Scrapy 安装: 第一步: pip install -i https://pypi.douban.com/simple lxml- 阅读全文
posted @ 2020-06-26 23:24 高汤 阅读(299) 评论(0) 推荐(0)
摘要:把起始URL放到redis中去 from scrapy_redis.spiders import RedisSpider # 继承RedisSpider class ChoutiSpider(RedisSpider): name = 'chouti' allowed_domains = ['chou 阅读全文
posted @ 2020-06-21 19:13 高汤 阅读(641) 评论(0) 推荐(0)
摘要:去重的配置: DUPEFILTER_KEY = 'dupefilter:%(timestamp)s' DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 调度器配置: SCHEDULER = "scrapy_redis.schedul 阅读全文
posted @ 2020-06-21 19:12 高汤 阅读(368) 评论(0) 推荐(0)
摘要:整个爬虫流程 1、scrapy crawl chouti --nolog 2、找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调试器对象 - 执行Scheduler.from_crawler - 执行Scheduler.from_set 阅读全文
posted @ 2020-06-21 19:10 高汤 阅读(159) 评论(0) 推荐(0)
摘要:scrapy_redis组件去重掉url settings.py # 去重类 # DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' scrapy_redis组件默认的自带的的类 DUPEFILTER_CLASS = 'xdb.dup 阅读全文
posted @ 2020-06-14 23:22 高汤 阅读(541) 评论(0) 推荐(0)
摘要:组件以及执行流程 -引擎找到要执行爬虫,并执行爬虫的start_requests 方法, 并得到一个迭代器。 -迭代器循环时会获取Request对象,而Request对象中封装了要访问的URL和回调函数。 -将所有的Request对象(任务)放到调试器中,用于以后被下载器下载 -下载器云调试器中获取 阅读全文
posted @ 2020-06-14 15:48 高汤 阅读(227) 评论(0) 推荐(0)
摘要:# -*- coding: utf-8 -*- import scrapy from xdb.items import XdbItem from scrapy.dupefilters import RFPDupeFilter from scrapy.http.cookies import Cooki 阅读全文
posted @ 2020-06-13 23:35 高汤 阅读(151) 评论(0) 推荐(0)
摘要:自定义proxy.py import base64 import random from urllib.parse import unquote, urlunparse from urllib.request import _parse_proxy from scrapy.utils.python 阅读全文
posted @ 2020-06-13 23:20 高汤 阅读(261) 评论(0) 推荐(0)
摘要:深度 配置文件: # 限制深度 DEPTH_LIMIT = 3 阅读全文
posted @ 2020-06-11 22:30 高汤 阅读(227) 评论(0) 推荐(0)
摘要:import scrapy from scrapy.http.cookies import CookieJar from scrapy.http import Request from urllib.parse import urlencode class ChoutiSpider(scrapy.S 阅读全文
posted @ 2020-06-11 22:28 高汤 阅读(372) 评论(0) 推荐(0)
摘要:dupefilter对访问的url做去重 第一步: 在爬虫文件中chouti.py中 import scrapy from xdb.items import XdbItem from scrapy.dupefilters import RFPDupeFilter class ChoutiSpider 阅读全文
posted @ 2020-06-10 23:01 高汤 阅读(246) 评论(0) 推荐(0)
摘要:Django: # 创建project django-admin startproject mysite cd mysite # 创建app python manage.py startapp app01 python manage.py startapp app02 # 启动项目 python m 阅读全文
posted @ 2020-06-08 00:20 高汤 阅读(82) 评论(0) 推荐(0)