随笔分类 - 爬虫
摘要:记录一下小程序源文件包的获取过程 1.所需环境 re文件管理器 反编译脚本wxappUnpacker或微信小程序反编译自动化工具 node.js 安装 2.找到小程序的源文件包 /data/data/com.tencent.mm/MicroMsg/{{一串32位的16进制字符串文件夹}}/appbr
阅读全文
摘要:前景描述: 需要获取某APP的全国订单量,及抢单量。由于没有全国的选项所以只能分别对每一个城市进行订单的遍历。爬虫每天运行一次,一次获取48小时内的订单,从数据库中取出昨天的数据进行对比,有订单被抢则更新,无则不操作。(更新逻辑在这里不重要,重要的是爬取逻辑)。每个订单有发布时间, 根据发布时间判断
阅读全文
摘要:背景介绍:之前写过通过通过scrapy的扩展发送邮件,在爬虫关闭的时候发送邮件。那个时候有个问题就是 对象需要 出去。这次需要在中间件中发送邮件,但是中间件中不能随便使用 了。 python import json import random import scrapy from scrapy.ht
阅读全文
摘要:scrapy发送邮件 应用场景:在爬虫关闭或者爬虫空闲时可以通过发送邮件的提醒。 通过twisted的非阻塞IO实现,可以直接写在spider中,也可以写在中间件或者扩展中,看你具体的需求。 在网上找了很多教程,都是很多年前的或者就是官网搬运的,一点实际的代码都没有,所以就自己尝试了一下,由于本人也
阅读全文
摘要:Image Pipeline Scrapy 提供了专门下载文件或者图片的Pipeline,下载图片与文件的原理同抓取网页的原理是一样的,所以他们的下载过程支持多线程与异步,十分的高效 Image Pipeline的工作流程 1. itemPipeline从item中获取需要下载的数据,通过Reque
阅读全文