随笔分类 -  爬虫从入门到放弃

Linux 平台部署 Selenium
摘要:Selenium 安装 1、安装 chrome wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm yum install ./google-chrome-stable_current_x86 阅读全文
posted @ 2022-10-16 15:43 Rannie` 阅读(444) 评论(0) 推荐(0)
Charles
摘要:Charles 下载地址 https://www.charlesproxy.com/download Charles激活地址 https://www.zzzmode.com/mytools/charles/ 阅读全文
posted @ 2022-08-30 16:11 Rannie` 阅读(69) 评论(0) 推荐(0)
爬虫工具网站
摘要:爬虫工具网站 https://alisen39.com/ header,curl,raw 转Python代码 http:httpbin.org/get 查看当前请求的IP https://spidertools.cn/ feapder爬虫工具库 http://24mail.chacuo.net/ 临 阅读全文
posted @ 2022-05-31 17:34 Rannie` 阅读(304) 评论(0) 推荐(0)
谷歌浏览器 Overrides
摘要:谷歌浏览器 Overrides 点击 source 里的 page,找到想要修改的文件,点击即可修改 修改完成后,ctrl+s保存,右键点击 Save for overrides 修改后的文件就会出现在 Overrides 里 阅读全文
posted @ 2022-03-09 11:09 Rannie` 阅读(821) 评论(0) 推荐(0)
w3lib
摘要:html 处理之 w3lib w3lib 是 scrapy 的基础插件,用来处理html,清理文本带有HTML标签的数据; from w3lib.html import remove_tags, replace_tags remove_tags(text, which_ones=(), keep=( 阅读全文
posted @ 2022-01-19 11:46 Rannie` 阅读(112) 评论(0) 推荐(0)
谷歌浏览器远程调试功能
摘要:谷歌浏览器远程调试功能 首先我们来启动Chrome的远程调试端口。你需要找到Chrome的安装位置,在Chrome的地址栏输入chrome://version就能找到Chrome的安装路径 开启远程控制命令 文件路径/chrome.exe --remote-debugging-port=9222 开 阅读全文
posted @ 2021-12-17 09:57 Rannie` 阅读(9598) 评论(0) 推荐(0)
cURL 快速转 Python Requests代码
摘要:cURL 快速转 Python Requests代码 在浏览器里复制 cURL 然后打开 Postman 阅读全文
posted @ 2021-11-18 15:12 Rannie` 阅读(631) 评论(0) 推荐(1)
fiddler 抓 Python requests 的包
摘要:fiddler 抓 Python requests 的包 注意:需要加上代理本地地址 import requests proxies = {'http': 'http://localhost:8888', 'https':'http://localhost:8888'} url = 'http:// 阅读全文
posted @ 2021-11-18 15:02 Rannie` 阅读(800) 评论(0) 推荐(0)
requests headers 保持顺序
摘要:import requests logo_url = 'http://match.yuanrenxue.com/logo' headers = { 'Host': 'match.yuanrenxue.com', 'Connection': 'keep-alive', 'User-Agent': 'M 阅读全文
posted @ 2021-03-09 15:00 Rannie` 阅读(150) 评论(0) 推荐(0)
async semphore
摘要:async semphore 1、Semaphore 是协程中用于控制某资源同时被访问的个数 2、Semaphore 维护了当前访问的个数,提供同步机制,控制同时访问的个数 async def main(self): tasks = [] # 在调用协程之前实例化一个信号量 local_data, 阅读全文
posted @ 2020-12-18 10:33 Rannie` 阅读(166) 评论(0) 推荐(0)
requests 模块查看请求的ip地址
摘要:import json import requests url = 'https://www.baidu.com' with open('proxiex.txt', 'r', encoding='utf-8') as f: data = json.loads(f.read()) proxy = { 阅读全文
posted @ 2020-11-11 15:59 Rannie` 阅读(2378) 评论(0) 推荐(0)
网络抓包
摘要:抓包原理 HTTPS即使安全,也是能够被抓包的,常见的抓包工具有:Charles、fildder等。 常用的HTTPS抓包方式是作为中间人,对客户端伪装成服务端,对服务端伪装成客户端。简单来说: 截获客户端的HTTPS请求,伪装成中间人客户端去向服务端发送HTTPS请求 接受服务端返回,用自己的证书 阅读全文
posted @ 2020-09-12 15:56 Rannie` 阅读(713) 评论(0) 推荐(0)
Frida Hook
摘要:Frida Hook Frida API介绍 : https://frida.re/docs/javascript-api/ Python + Javascript Python代码作用是控制,写法固定,负责跟frida-server通信,把JS代码传递给fridaserver Javascrip 阅读全文
posted @ 2020-09-10 22:08 Rannie` 阅读(737) 评论(0) 推荐(0)
Frida 环境部署及使用
摘要:Frida 环境部署 Frida 是一款基于 Python + JavaScript 的 Hook 与调试框架 Frida大致原理是手机端安装一个server程序,然后把手机端的端口转到PC端,PC端写python脚本进行通信,而python脚本中需要hook的代码采用javascript语言。 官 阅读全文
posted @ 2020-09-06 18:18 Rannie` 阅读(1374) 评论(0) 推荐(1)
查看安卓手机CPU类型armeabi,armeabi-v7a,还是arm64-v8a
摘要:查看安卓手机CPU类型armeabi,armeabi-v7a,还是arm64-v8a armeabiv-v7a: 第7代及以上的 ARM 处理器。2011年15月以后的生产的大部分Android设备都使用它. arm64-v8a: 第8代、64位ARM处理器,很少设备,三星 Galaxy S6是其中 阅读全文
posted @ 2020-09-06 15:03 Rannie` 阅读(24246) 评论(0) 推荐(1)
常见的5种字符编码特征
摘要:常见字符编码特征 1.以%开头的一般是做了URL编码的,用urllib.parse.unquote()解码。 2.以&#开头的一般是做了Unicode转义处理,html.unescape()做反转义。 3.以&#x开头的是做了Unicode 16进制转义,也用html.unescape()做反转义。 阅读全文
posted @ 2020-08-31 16:19 Rannie` 阅读(2221) 评论(0) 推荐(0)
APP
摘要:JADX 反编译工具 APKTool 逆向工具 查看安卓手机CPU类型x86 Frida 环境部署及使用 Frida Hook HTTPS单向认证,双向认证 网络抓包 软件脱壳 IDA 动静态调试 mitmproxy 安装配置 adb keyevent 命令 adb 使用 APPium 环境配置 m 阅读全文
posted @ 2020-08-31 16:14 Rannie` 阅读(442) 评论(0) 推荐(0)
APKTool 反编译,打包,签名
摘要:apktool 主要用于逆向apk文件。它可以将资源解码,并在修改后可以重新构建它们。它还可以执行一些自动化任务,例如构建 apk 下载地址 https://ibotpeaches.github.io/Apktool/ https://bitbucket.org/iBotPeaches/apktoo 阅读全文
posted @ 2020-08-29 15:56 Rannie` 阅读(4630) 评论(0) 推荐(0)
JADX
摘要:JADX 下载 一款反编译利器,同时支持命令行和图形界面,能以最简便的方式完成apk的反编译操作 githun 地址 https://github.com/skylot/jadx 打开目录 点击 jadx-gui.bat 直接运行 前提是装了 java 环境 如果报错,有可能是 JAVA_HOME 阅读全文
posted @ 2020-08-28 11:51 Rannie` 阅读(2032) 评论(0) 推荐(0)
BeautifulSoup 剔除 HTML script 脚本;删除指定 class标签
摘要:BeautifulSoup 剔除 HTML script 脚本,删除指定 class标签 剔除 script 方式一: [s.extract() for s in soup("script")] 方式二: def H5_filter(self): ''' 对爬取的 H5 进行过滤 :return: 阅读全文
posted @ 2020-08-02 14:41 Rannie` 阅读(1437) 评论(0) 推荐(0)

去除动画
找回动画