摘要:场景:一个标题A,上面有一个链接B,链接B里面有内容C,如果要把标题A和内容C一一对应的话,在scrapy里面用meta就比较容易实现啦。 class File01Spider(scrapy.Spider): name = 'file01' start_urls = ['http://www.jkl
阅读全文
摘要:一、原生态的scrapy不支持分布式,因为调度器和管道无法共享。
阅读全文
摘要:一、定义数据库数据模型 create database doubandb; create TABLE books( id bigint(20) unsigned NOT NULL COMMENT ID号, title varchar(255) DEFAULT NULL COMMENT 书名, aut
阅读全文
摘要:一、item.py中定义数据模型 class Dishonest(scrapy.Item): name=scrapy.Field() card_num=scrapy.Field() age=scrapy.Field() area=scrapy.Field() business_entiy=scrap
阅读全文
摘要:一、爬虫过程中尽可能规避验证码,查找第三方接口. 二、简单验证码。第三方平台:云打码。
阅读全文
摘要:一、css加密,通过css样式去代替某个字符,
阅读全文
摘要:一、创建新项目 gerapy init 二、对数据库初始化 gerapy migrate 三、启动gerapy服务 gerapy runserver 四、gerapy createsuperuser 创建用户名密码
阅读全文
摘要:一、登录抓包,滑动验证后生成的参数,最新官网已取消 全局搜索password=,password:,password :,password等词,排除无选中资源包,css文件,标签资源包,得到如下疑似加密代码(encrypt): 从获取公钥可以初步断定为rsa加密,最终JS加密数据包:
阅读全文
摘要:一、md5加密后的数据一般为16进制,32位,如下可初步断定为md5加密。 二、全局搜索pwd .css文件直接忽略
阅读全文
摘要:数据库的链接,断开及操作都是网络IO pip install aioredis
阅读全文
摘要:总体采用广度优先策略 一、分析分类信息URL: https://dc.3.cn/category/get
阅读全文
摘要:一、代理池概述 免费代理不稳定,通常只有10%可用,便宜收费代理也只有30%-50%的可用,只有代理IP提供商可提供高可用的代理。(智连HTTP) 五、代理池工具模块 1.日志模块,日志代码项目之间可以复用 import sysimport loggingLOG_LEVEL=logging.INFO
阅读全文
摘要:一、直接请求报错 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <521 http://www.gsxt.gov.cn/corp-query-entprise-info-xxgg-100000.html>: HTTP sta
阅读全文
摘要:一、 twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side
阅读全文
摘要:中间件:批量拦截请求和响应,分为爬虫中间件和下载中间件,通常只用下载中间件。 一、实现随机User-Agent下载器中间件 1、准备user-agent列表 2、定义RandomUserAgent类 3、实现process_request方法 #request拦截到的请求,spider爬虫类实例化的
阅读全文
摘要:一、设置User-Agent,否则会出现无法跳转链接
阅读全文
摘要:一、File-Capture Traffic设置代理开关 二、设置代理https请求 三、各字段含义 #顺序 result:状态码 protocal:协议 host:主机名 url:完整地址 body:请求头 chahing:缓存信息 content_type:请求响应类型 process:进程 图
阅读全文
摘要:协程:同时开启多个任务,但一次只顺序执行一个,等到所执行的任务遭到阻塞,就切换到下一个任务继续执行,节省阻塞占用的时间。 单进程下协程和多线程区别不大,协程相较更安全,而多进程下,多线程可以利用多核资源。
阅读全文