摘要: AST 是源代码的抽象语法结构的树状表示。利用它可以还原混淆后的js代码。 @babel/parser 是js语法编译器 Babel 的 nodejs 包,内置很多分析 js 的方法,可以实现js到AST的转换。 JS 转为 AST:https://astexplorer.net/ 准备工作: 需安 阅读全文
posted @ 2024-05-15 18:05 脱下长日的假面 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 案例引入: 先看一个网站:https://www.httpbin.org/delay/5, 该网站会强制等待5秒后才返回响应。如果想访问100次该网站,单线程的情况下,至少要等待500秒才能全部执行完毕。为了提高访问效率,可以使用协程实现加速。 首先需要了解一些基础概念: 阻塞:指程序未得到所需计算 阅读全文
posted @ 2024-05-05 01:31 脱下长日的假面 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 在数据采集的过程中,可能需要一些进程间的通信,如 一个进程负责构造爬取请求,另一个负责执行这些请求; 某个数据爬取进程执行完毕,通知另一个负责数据处理的进程开始爬取数据; 某个进程新建了一个爬取任务,通知另一个负责数据爬取的进程开始爬取数据。 为了降低进程耦合度,需一个消息队列中间件来存储和转发消息 阅读全文
posted @ 2024-05-04 18:50 脱下长日的假面 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 第16题:表情包+sojson6.0 抓包分析可知,需逆向safe参数,根据调用堆栈很容易找到safe的生成位置,如下: 上方有一段特殊字符组成的内容,查看上下文并未找到token,因此token很可能是这段特殊字符构成的代码生成的,单步调试可以发现,上面是在进行赋值操作,最后一行很长的那一行是进行 阅读全文
posted @ 2024-04-28 22:07 脱下长日的假面 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 第12题:静态css字体加密 抓包发现,返回结果数字均为这种格式 &#xe449,经对比发现,该串字符串与数字0~9有着一一对应关系,响应匹配即可: data_set = { '&#xe458': '1', '&#xf375': '2', '&#xf80c': '3', '&#xf12f': '4' 阅读全文
posted @ 2024-04-27 00:09 脱下长日的假面 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 第11题:人均会解jsl 控制台抓包可以看到,页面请求了两次 https://www.python-spider.com/challenge/11 第一次返回了一段js代码,第二次返回了所需数据: 对比两次请求参数发现,只有cookie中的__jsl_clearance发生了变化,其他参数均相同,因 阅读全文
posted @ 2024-04-26 23:06 脱下长日的假面 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 第六题:session保持检测 使用session请求即可:session = requests.Session() 第七题:请求规律检测1-post 根据请求接口找规律,在每一页请求前请求一次https://www.python-spider.com/cityjson即可 requests.pos 阅读全文
posted @ 2024-04-26 21:30 脱下长日的假面 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 第1题. 无混淆js加密 抓包可以看到,有一个请求头参数 safe 加密。 根据调用堆栈很容易找到加密参数位置: 可以看到,safe 是由固定字符串 a = '9622' 加 时间戳,经base64编码后,传入 hex_md5 方法得到。 进入 hex_md5 ,直接复制 md5.js 到本地,调用 阅读全文
posted @ 2024-04-26 01:08 脱下长日的假面 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 任务目标:以分布式的方式爬取链家网上二手房信息,包括标题、城市、行政区、总价、户型、面积、朝向等信息 分布式爬虫,即在多台电脑上同时执行同一个爬虫任务,在分布式爬取之前,需要先完成单机爬虫,然后部署到多台机器上,完成分布式。 链家网单机爬虫:从城市页面开始爬取,到每个城市的不同行政区,以及每个行政区 阅读全文
posted @ 2020-11-12 18:57 脱下长日的假面 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 任务目标: 下载“编辑精选”下所有页面所有文章内的图片,保存到指定文件夹 打开zcool主页,点击“发现”,出现“编辑精选”标签,下载该标签下所有页面所有文章内的图片。 通过查看翻页url以及文章详情url发现,这两个url都符合一定的规则,且都可以在网页源代码中找到,因此选择scrapy的Craw 阅读全文
posted @ 2020-11-12 11:58 脱下长日的假面 阅读(274) 评论(0) 推荐(0) 编辑