随笔档案「2021年4月」 - 吉阿吉

scrapy 传递参数meta用法

摘要：场景：一个标题A，上面有一个链接B，链接B里面有内容C，如果要把标题A和内容C一一对应的话，在scrapy里面用meta就比较容易实现啦。 class File01Spider(scrapy.Spider): name = 'file01' start_urls = ['http://www.jkl 阅读全文

posted @ 2021-04-30 13:55 吉阿吉阅读(683) 评论(0) 推荐(0)

scrapy_redis分布式爬虫

摘要：一、原生态的scrapy不支持分布式，因为调度器和管道无法共享。阅读全文

posted @ 2021-04-28 20:36 吉阿吉阅读(39) 评论(0) 推荐(0)

豆瓣图书信息爬虫

摘要：一、定义数据库数据模型 create database doubandb; create TABLE books( id bigint(20) unsigned NOT NULL COMMENT ID号， title varchar(255) DEFAULT NULL COMMENT 书名， aut 阅读全文

posted @ 2021-04-27 16:15 吉阿吉阅读(224) 评论(0) 推荐(0)

百度失信人名单爬虫

摘要：一、item.py中定义数据模型 class Dishonest(scrapy.Item): name=scrapy.Field() card_num=scrapy.Field() age=scrapy.Field() area=scrapy.Field() business_entiy=scrap 阅读全文

posted @ 2021-04-27 13:55 吉阿吉阅读(176) 评论(0) 推荐(0)

爬虫验证码处理

摘要：一、爬虫过程中尽可能规避验证码，查找第三方接口. 二、简单验证码。第三方平台：云打码。阅读全文

posted @ 2021-04-26 19:15 吉阿吉阅读(159) 评论(0) 推荐(0)

猫眼电影爬虫

摘要：一、字体加密阅读全文

posted @ 2021-04-26 16:40 吉阿吉阅读(77) 评论(0) 推荐(0)

大众点评爬虫

摘要：一、css加密，通过css样式去代替某个字符，阅读全文

posted @ 2021-04-26 15:57 吉阿吉阅读(144) 评论(0) 推荐(0)

Gerapy

摘要：一、创建新项目 gerapy init 二、对数据库初始化 gerapy migrate 三、启动gerapy服务 gerapy runserver 四、gerapy createsuperuser 创建用户名密码阅读全文

posted @ 2021-04-24 23:44 吉阿吉阅读(277) 评论(0) 推荐(0)

完美世界RSA加密JS逆向

摘要：一、登录抓包，滑动验证后生成的参数，最新官网已取消全局搜索password=，password:,password :,password等词，排除无选中资源包，css文件，标签资源包,得到如下疑似加密代码（encrypt)：从获取公钥可以初步断定为rsa加密，最终JS加密数据包：阅读全文

posted @ 2021-04-23 19:38 吉阿吉阅读(221) 评论(0) 推荐(0)

微信公众平台JS逆向

摘要：一、md5加密后的数据一般为16进制,32位，如下可初步断定为md5加密。二、全局搜索pwd .css文件直接忽略阅读全文

posted @ 2021-04-21 01:09 吉阿吉阅读(202) 评论(0) 推荐(0)

异步redis

摘要：数据库的链接，断开及操作都是网络IO pip install aioredis 阅读全文

posted @ 2021-04-20 23:58 吉阿吉阅读(45) 评论(0) 推荐(0)

京东爬虫

摘要：总体采用广度优先策略一、分析分类信息URL: https://dc.3.cn/category/get 阅读全文

posted @ 2021-04-20 21:28 吉阿吉阅读(263) 评论(0) 推荐(0)

代理池项目

摘要：一、代理池概述免费代理不稳定，通常只有10%可用，便宜收费代理也只有30%-50%的可用，只有代理IP提供商可提供高可用的代理。(智连HTTP) 五、代理池工具模块 1.日志模块，日志代码项目之间可以复用 import sysimport loggingLOG_LEVEL=logging.INFO 阅读全文

posted @ 2021-04-20 21:10 吉阿吉阅读(126) 评论(0) 推荐(0)

国家企业信用公告系统爬虫

摘要：一、直接请求报错 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <521 http://www.gsxt.gov.cn/corp-query-entprise-info-xxgg-100000.html>: HTTP sta 阅读全文

posted @ 2021-04-20 15:31 吉阿吉阅读(774) 评论(0) 推荐(0)

scrapy爬虫错误笔记

摘要：一、 twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side 阅读全文

posted @ 2021-04-20 15:12 吉阿吉阅读(456) 评论(0) 推荐(0)

Scrapy下载器中间件

摘要：中间件：批量拦截请求和响应，分为爬虫中间件和下载中间件，通常只用下载中间件。一、实现随机User-Agent下载器中间件 1、准备user-agent列表 2、定义RandomUserAgent类 3、实现process_request方法 #request拦截到的请求，spider爬虫类实例化的阅读全文

posted @ 2021-04-19 22:58 吉阿吉阅读(126) 评论(0) 推荐(0)

PhantonJS

摘要：一、设置User-Agent，否则会出现无法跳转链接阅读全文

posted @ 2021-04-19 22:22 吉阿吉阅读(41) 评论(0) 推荐(0)

gevent库

摘要：一、猴子补丁自动二、阅读全文

posted @ 2021-04-16 14:38 吉阿吉阅读(67) 评论(0) 推荐(0)

协程

摘要：协程：同时开启多个任务，但一次只顺序执行一个，等到所执行的任务遭到阻塞，就切换到下一个任务继续执行，节省阻塞占用的时间。单进程下协程和多线程区别不大，协程相较更安全，而多进程下，多线程可以利用多核资源。阅读全文

posted @ 2021-04-15 11:22 吉阿吉阅读(51) 评论(0) 推荐(0)

吉阿吉

04 2021 档案