会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
一个大柚子
博客园
首页
新随笔
联系
管理
订阅
[置顶]
使用scrapy+selenium爬取淘宝网
摘要: --***2019-3-27测试有效*** 第一步: 打开cmd,输入scrapy startproject taobao_s新建一个项目。 接着cd 进入我们的项目文件夹内输入scrapy genspider taobao www.taobao.com新建一个爬虫 文件内是这样的,tools是我建
阅读全文
posted @ 2018-12-02 19:55 一个大柚子
阅读(6727)
评论(6)
推荐(1)
2021年10月28日
一个简单的app的demo
摘要: 目标app:aHR0cHM6Ly9zZWN1cml0eS5iaWxpYmlsaS5jb20vc2VjMTAyNC9xL3I1Lmh0bWw= 打开app 把app丢到GDA反编译 跳转Encrypt a就是换位 b就是base64 java和python的byte是不一样的。 java的byte[]
阅读全文
posted @ 2021-10-28 11:49 一个大柚子
阅读(1076)
评论(0)
推荐(0)
2021年8月28日
python爬虫 一个security的RSA加密爬虫
摘要: 目标网站 aHR0cDovL2Nhcy5zd3VzdC5lZHUuY24vYXV0aHNlcnZlci9sb2dpbg== 加密定位和分析 第一个参数 execution 在页面直接存在 第二个参数 这个是直接写死的 第三参数geolocation 直接为空 第四个参数 username 是账号名,
阅读全文
posted @ 2021-08-28 10:26 一个大柚子
阅读(987)
评论(0)
推荐(0)
2021年8月17日
python使用excejs执行时出现环境缺失的简单解决方法
摘要: 使用jsdom 在js的头加上 const canvas = require('canvas'); const jsdom = require("jsdom"); const {JSDOM} = jsdom; const dom = new JSDOM(`<!DOCTYPE html><p>Hell
阅读全文
posted @ 2021-08-17 17:14 一个大柚子
阅读(258)
评论(0)
推荐(0)
2021年8月14日
记一次面试过程
摘要: 不完善的地方 1.询问ase加密模型的区别 2.询问celery的定时 3.询问mysql数据库的索引 4.询问安卓逆向 5.询问mysql千万级别的数据库入库。 当时答的是使用多线程,和队列。经过现在的查询, 1、使用拼接sql,一次导入五千或者一万条,能够显著提高速度。 2、使用连接池 3、使用
阅读全文
posted @ 2021-08-14 10:58 一个大柚子
阅读(47)
评论(0)
推荐(0)
2019年12月18日
收藏的一些文章
摘要: 1 . 使用python+selenium控制手工已打开的浏览器 https://www.cnblogs.com/HJkoma/p/9936434.html 2 . 协程(Coroutine) https://blog.csdn.net/qq_33567641/article/details/821
阅读全文
posted @ 2019-12-18 12:31 一个大柚子
阅读(134)
评论(0)
推荐(0)
使用 mitmdump 进行 selenium webDriver绕过网站反爬服务的方法 pdd某宝 可用
摘要: 安装: pip install mitmproxy 新建一个脚本 脚本代码: 1 from mitmproxy import ctx 2 3 injected_javascript = ''' 4 // overwrite the `languages` property to use a cust
阅读全文
posted @ 2019-12-18 11:48 一个大柚子
阅读(2325)
评论(0)
推荐(0)
2019年8月3日
python 使用tesseract进行图片识别
摘要: 我的python为3.7 1.需要安装二个模块, PIL 直接使用 pip install PIL 会报错 使用 pip install Pillow 即可安装PIL 第二个直接 pip install pytesseract 2安装好了模块还需要下载 tesseract-ocr 下载网址:http
阅读全文
posted @ 2019-08-03 16:17 一个大柚子
阅读(7903)
评论(0)
推荐(0)
2019年5月19日
scrapy-redis 分布式哔哩哔哩网站用户爬虫
摘要: scrapy里面,对每次请求的url都有一个指纹,这个指纹就是判断url是否被请求过的。默认是开启指纹即一个URL请求一次。如果我们使用分布式在多台机上面爬取数据,为了让爬虫的数据不重复,我们也需要一个指纹。但是scrapy默认的指纹是保持到本地的。所有我们可以使用redis来保持指纹,并且用red
阅读全文
posted @ 2019-05-19 16:49 一个大柚子
阅读(631)
评论(0)
推荐(0)
2019年3月10日
今日头条加密参数的识别
摘要: 今日头条有三个加密参数 先找一个作者的主页,列如:https://www.toutiao.com/c/user/108888017311/#mid=1619989289127939 然后进去抓包找文章的地址发现:https://www.toutiao.com/c/user/article/?page
阅读全文
posted @ 2019-03-10 16:04 一个大柚子
阅读(4102)
评论(0)
推荐(0)
2019年2月28日
python 遇到的一些问题和解决方法
摘要: 安装crypto python3里面这个改成了pycryptodome 1. pip3 install pycryptodome 或者 pip3 install -i https://pypi.douban.com/simple pycryptodome
阅读全文
posted @ 2019-02-28 14:47 一个大柚子
阅读(461)
评论(0)
推荐(0)
下一页
公告