随笔分类 - 爬虫从入门到放弃
Linux 平台部署 Selenium
摘要:Selenium 安装 1、安装 chrome wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm yum install ./google-chrome-stable_current_x86
阅读全文
Charles
摘要:Charles 下载地址 https://www.charlesproxy.com/download Charles激活地址 https://www.zzzmode.com/mytools/charles/
阅读全文
爬虫工具网站
摘要:爬虫工具网站 https://alisen39.com/ header,curl,raw 转Python代码 http:httpbin.org/get 查看当前请求的IP https://spidertools.cn/ feapder爬虫工具库 http://24mail.chacuo.net/ 临
阅读全文
谷歌浏览器 Overrides
摘要:谷歌浏览器 Overrides 点击 source 里的 page,找到想要修改的文件,点击即可修改 修改完成后,ctrl+s保存,右键点击 Save for overrides 修改后的文件就会出现在 Overrides 里
阅读全文
w3lib
摘要:html 处理之 w3lib w3lib 是 scrapy 的基础插件,用来处理html,清理文本带有HTML标签的数据; from w3lib.html import remove_tags, replace_tags remove_tags(text, which_ones=(), keep=(
阅读全文
谷歌浏览器远程调试功能
摘要:谷歌浏览器远程调试功能 首先我们来启动Chrome的远程调试端口。你需要找到Chrome的安装位置,在Chrome的地址栏输入chrome://version就能找到Chrome的安装路径 开启远程控制命令 文件路径/chrome.exe --remote-debugging-port=9222 开
阅读全文
cURL 快速转 Python Requests代码
摘要:cURL 快速转 Python Requests代码 在浏览器里复制 cURL 然后打开 Postman
阅读全文
fiddler 抓 Python requests 的包
摘要:fiddler 抓 Python requests 的包 注意:需要加上代理本地地址 import requests proxies = {'http': 'http://localhost:8888', 'https':'http://localhost:8888'} url = 'http://
阅读全文
requests headers 保持顺序
摘要:import requests logo_url = 'http://match.yuanrenxue.com/logo' headers = { 'Host': 'match.yuanrenxue.com', 'Connection': 'keep-alive', 'User-Agent': 'M
阅读全文
async semphore
摘要:async semphore 1、Semaphore 是协程中用于控制某资源同时被访问的个数 2、Semaphore 维护了当前访问的个数,提供同步机制,控制同时访问的个数 async def main(self): tasks = [] # 在调用协程之前实例化一个信号量 local_data,
阅读全文
requests 模块查看请求的ip地址
摘要:import json import requests url = 'https://www.baidu.com' with open('proxiex.txt', 'r', encoding='utf-8') as f: data = json.loads(f.read()) proxy = {
阅读全文
网络抓包
摘要:抓包原理 HTTPS即使安全,也是能够被抓包的,常见的抓包工具有:Charles、fildder等。 常用的HTTPS抓包方式是作为中间人,对客户端伪装成服务端,对服务端伪装成客户端。简单来说: 截获客户端的HTTPS请求,伪装成中间人客户端去向服务端发送HTTPS请求 接受服务端返回,用自己的证书
阅读全文
Frida Hook
摘要:Frida Hook Frida API介绍 : https://frida.re/docs/javascript-api/ Python + Javascript Python代码作用是控制,写法固定,负责跟frida-server通信,把JS代码传递给fridaserver Javascrip
阅读全文
Frida 环境部署及使用
摘要:Frida 环境部署 Frida 是一款基于 Python + JavaScript 的 Hook 与调试框架 Frida大致原理是手机端安装一个server程序,然后把手机端的端口转到PC端,PC端写python脚本进行通信,而python脚本中需要hook的代码采用javascript语言。 官
阅读全文
查看安卓手机CPU类型armeabi,armeabi-v7a,还是arm64-v8a
摘要:查看安卓手机CPU类型armeabi,armeabi-v7a,还是arm64-v8a armeabiv-v7a: 第7代及以上的 ARM 处理器。2011年15月以后的生产的大部分Android设备都使用它. arm64-v8a: 第8代、64位ARM处理器,很少设备,三星 Galaxy S6是其中
阅读全文
常见的5种字符编码特征
摘要:常见字符编码特征 1.以%开头的一般是做了URL编码的,用urllib.parse.unquote()解码。 2.以&#开头的一般是做了Unicode转义处理,html.unescape()做反转义。 3.以&#x开头的是做了Unicode 16进制转义,也用html.unescape()做反转义。
阅读全文
APP
摘要:JADX 反编译工具 APKTool 逆向工具 查看安卓手机CPU类型x86 Frida 环境部署及使用 Frida Hook HTTPS单向认证,双向认证 网络抓包 软件脱壳 IDA 动静态调试 mitmproxy 安装配置 adb keyevent 命令 adb 使用 APPium 环境配置 m
阅读全文
APKTool 反编译,打包,签名
摘要:apktool 主要用于逆向apk文件。它可以将资源解码,并在修改后可以重新构建它们。它还可以执行一些自动化任务,例如构建 apk 下载地址 https://ibotpeaches.github.io/Apktool/ https://bitbucket.org/iBotPeaches/apktoo
阅读全文
JADX
摘要:JADX 下载 一款反编译利器,同时支持命令行和图形界面,能以最简便的方式完成apk的反编译操作 githun 地址 https://github.com/skylot/jadx 打开目录 点击 jadx-gui.bat 直接运行 前提是装了 java 环境 如果报错,有可能是 JAVA_HOME
阅读全文
BeautifulSoup 剔除 HTML script 脚本;删除指定 class标签
摘要:BeautifulSoup 剔除 HTML script 脚本,删除指定 class标签 剔除 script 方式一: [s.extract() for s in soup("script")] 方式二: def H5_filter(self): ''' 对爬取的 H5 进行过滤 :return:
阅读全文