随笔分类 -  python高级应用

Python的高级运用
摘要:大概路线就这样: 阅读全文
posted @ 2020-12-17 12:03 Eeyhan 阅读(1007) 评论(0) 推荐(0)
摘要:什么是数据库同步 指在存储类型、格式和计算机系统之间的数据转换,这个名词没有严格的定义,反正就那个意思 mysql配置 mysql要实现数据库同步,得配置下才行。 阅读全文
posted @ 2020-09-10 11:06 Eeyhan 阅读(3381) 评论(0) 推荐(0)
摘要:前面有一两篇博文介绍过frida,对于做安全和逆向的朋友来说,那简直就是象棋里“車”的存在,走哪杀哪,所以这也对做安全的人来说,肯定也会针对frida做一定的反制,以下就是转载的检测frida的方法 阅读全文
posted @ 2020-08-08 17:11 Eeyhan 阅读(3787) 评论(2) 推荐(1)
摘要:前几天我一个做安全的哥们儿,做了个简单的数据展示平台,他让我做下反爬测试,我当即一堆操作就开始搞了,结果就遇到一个非常奇葩的问题。看截图: 这个是正常的请求: 阅读全文
posted @ 2020-08-05 11:30 Eeyhan 阅读(390) 评论(0) 推荐(0)
摘要:篇一 JavaScript API 目录 Global console rpc Frida Process Module ModuleMa 阅读全文
posted @ 2020-08-01 14:53 Eeyhan 阅读(3291) 评论(0) 推荐(0)
摘要:现在这个大数据时代,流量逐渐由web端转移到移动端,而目前主流的移动端就是安卓和ios端了,随着时间的积累,很多平台的数据也越来越庞大,数据越来越多,同时,针对这方面的爬虫分析也慢慢开始多了起来,这真是我的切身体验,现在基本都要 阅读全文
posted @ 2020-06-30 20:48 Eeyhan 阅读(2619) 评论(0) 推荐(0)
摘要:死代码与花指令 在开始之前,我们先了解一下这种「在代码中插入大量无用代码以混淆视听」的混淆方式吧。这种混淆方式有两种叫法,或者说是两种做法,它们分别是「死代码」和「花指令」。 死代码 死代码一开始是被用来描述一些人写代码时写出的没有用到的代码的,为了编译后的文件尽可能地小,编译器通常会对死代码进行移除处理。 而在不知道什么时候开始,死代码被安全工作者们用来作为一种混淆机制,以将代码量变得极为庞大,使进行逆向工程的人难以找到主要逻辑。 但死代码有个很明显的特征:它虽然看着代码量很大,但实际却完全不会在程序的正常代码中被调用。 阅读全文
posted @ 2020-06-17 19:14 Eeyhan 阅读(5772) 评论(0) 推荐(0)
摘要:我们在爬取网站的时候,经常会遇到各种各样类似加密的情形,比如: 某个网站的 URL 带有一些看不懂的长串加密参数,想要抓取就必须要懂得这些参数是怎么构造的,否则我们连完整的 URL 都构造不出来,更不用说爬取了。 分析某个网站的 Ajax 接口的时候,可以看到接口的一些参数也是加密的,或者 Request Headers 里面也可能带有一些加密参数,如果不知道这些参数的具体构造逻辑就无法直接用程序来模拟这些 Ajax 请求。 阅读全文
posted @ 2020-06-17 18:47 Eeyhan 阅读(1324) 评论(0) 推荐(0)
摘要:这篇文章同样的还是转载崔大的,因为都是一个系列的,所以我就转载出来了,我觉得很实用。原文链接:点我 以下内容为原文。 之前我们介绍了 ajax-hook 来实现爬虫的过程中截获 Ajax 请求,可以看这篇文章如何用 Hook 实时处理和保存 Ajax 数据,在这里再另外介绍一个工具 BrowserMob Proxy,利用它我们同样可以实现 Selenium 爬虫过程中 Ajax 请求的获取。 下面我们来简单介绍一下。 阅读全文
posted @ 2020-06-09 15:25 Eeyhan 阅读(4397) 评论(1) 推荐(0)
摘要:selenium库的安装很简单: pip install selenium # pip install selenium -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 阅读全文
posted @ 2020-06-02 19:59 Eeyhan 阅读(1064) 评论(0) 推荐(0)
摘要:本篇文章转载于崔大的公众号文章,瞬间感觉这是个大招啊,赶紧学习起来 原文链接:点我, 以下为原文内容: 做爬虫的时候我们经常会遇到这么一个问题: 阅读全文
posted @ 2020-06-02 19:38 Eeyhan 阅读(5263) 评论(1) 推荐(2)
摘要:0.工具准备: 微信号 关注好目标公众号 charles 准备一个微信号,建议不要用刚注册的微信号来操作,容易被封号,微信内部是有一套反爬系统的,你运气不好就会触发到 关注好你需要爬取的公众号,因为要关注了,你才可以打开这个公众号的历史消息,不然的话,你只能看到最近的几篇文章,说白了就是看不全,搜狗搜索针对微信公众号的搜索我没猜错就是这样,所以只能看前几条信息,并且我发现搜狗搜索已经不好使了 charles就是抓包工具,这个网上很多资源,配置步骤也有很多,这个就自行查看配置了,记得要装上ssl证书,配置好ssl的代理。 那么有朋友要问,可以用fiddler替代charles吗? 阅读全文
posted @ 2020-05-26 19:38 Eeyhan 阅读(1597) 评论(0) 推荐(0)
摘要:本来安装frida就两个命令就搞定的事 pip install frida pip install frida-tools    但是死活给整了一两个小时 一执行pip命令,不是报 如下错: WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status =None))    就是报如下错: fridaERROR: Command errored out with exit status 1: /Library/Framew......    真的给我整懵逼了,查了一堆,都是说更改安装源为国内就行,但是,我用了,命令如下: pip install -i http://pypi.douban.com/simple/--trusted-host pypi.douban.com frida 阅读全文
posted @ 2020-05-14 19:40 Eeyhan 阅读(3729) 评论(0) 推荐(1)
摘要:不管我怎么搞都解码不出来,查了下,说的是在 Node 层利用 cheerio 解析网页时,输出的中文内容都是以 &#x 开头的一堆像乱码一样的东西,尝试过各种编码都无效,而且神奇的是,将这一堆“乱码”保存成网页后,通过浏览器打开又可以正常显示,凭我多年的爬虫分析经验来看,这应该就是我要的东西,并不是随机生成的,想了很久,我突然想起了一种html的页码表现形式,有没有觉得很像那种html的特征码,比如 空格就是   以上的数据,格式是是不是非常像 阅读全文
posted @ 2020-05-03 18:57 Eeyhan 阅读(915) 评论(0) 推荐(0)
摘要:别问为什么会想到对微信小程序反编译,就是临时想起的 然后往上搜罗了各种,资料,总结如下: 需要用到工具: npm 安卓模拟器 微信开发者工具 反编译工具 阅读全文
posted @ 2020-04-19 17:06 Eeyhan 阅读(5050) 评论(2) 推荐(0)
摘要:偶然的发现某网站,采用的是post请求,然后打开f12调试查看: 它提交的参数并不是我们熟悉的formdata类型,而是payload,这种是怎么回事呢,先了解下什么是payload Request Payload 我们都知道,前端与后端交互,一般有几种模式,且通过字段Content-Type区分 Content-Type: application/x-www-form-urlencoded application/json multipart/form-data 写过后端接口的朋友对这个应该不陌生 写过前端的朋友,看这个,你应该也不陌 阅读全文
posted @ 2020-03-14 11:32 Eeyhan 阅读(5000) 评论(1) 推荐(1)
摘要:言 同上一篇的aes加密一样,也是偶然发现这个rsa加密的,目标网站我就不说了,保密。 当我发现这个网站是ajax加载时: 我已经习以为常,正在进行爬取时,发现返回为空,我开始用findler抓包,发现它验证了cookie,然后我带上cookie访问放到headers里,就能得到结果 heade 阅读全文
posted @ 2020-02-02 20:49 Eeyhan 阅读(5107) 评论(7) 推荐(2)
摘要:发现问题 在一次偶然中,在爬取某个网站时,老方法,打开调试工具查看请求方式,请求拦截,是否是异步加载,不亦乐乎,当我以为这个网站非常简单的时候,发现二级网页的地址和源码不对应 Ajax异步加载?源码也是这样的 而且这些链接直接访问根本无法访问 用火狐浏览器的event显示: 找到加密方式 源码: function() { var hh = $(this).attr("href"); if (typeof(hh) == 'undefined' || hh == '#') { return } var aa = hh.split("/"); var aaa = aa.length; 阅读全文
posted @ 2020-01-18 15:04 Eeyhan 阅读(10484) 评论(7) 推荐(1)
摘要:最近在爬一个网站,然后爬到详情页的时候发现,目标内容是用pdf在线预览的 比如如下网站: https://camelot-py.readthedocs.io/en/master/_static/pdf/foo.pdf 根据我的分析发现,这样的在线预览pdf的采用了pdfjs加载预览,用爬虫的方法根本无法直接拿到pdf内的内容的,对的,你注意到了我说的【根本无法直接拿到】中的直接两个字,确实直接无法拿到,怎么办呢?只能把pdf先下载到本地,然后用工具转了,经过我查阅大量的相关资料发现,工具还是有很多:   1.借用第三方的pdf转换网站转出来   2.使用Python的包来转:如:pyPdf,pyPdf2,pyPdf4,pdfrw等工具 这些工具在pypi社区一搜一大把: 但是效果怎么样就不知道了,只能一个一个去试了,到后面我终于找到个库,非常符合我的需求的库 ——camelot camelot可以读取pdf文件中的数据,并且自动转换成p 阅读全文
posted @ 2019-12-30 12:58 Eeyhan 阅读(10894) 评论(4) 推荐(1)
摘要:最近有点空余就一直在开发我的项目,最近做了两个项目: IPproxy,看名字就知道啦,就是一个ip代理池,爬取了各大免费的代理网站,然后检测可用性,github地址 相关的介绍github上已经说明了 get_jobs,爬取了几十个招聘类网站的数据,github地址 同样的,相关的介绍github上已经说明了 根据以上爬取的大概也许可能接近上百个网站吧,加上我初学爬虫的时候爬的网站,现在也算是爬了有接近上千个网站了,对爬虫也算是小有心得了,下面就开始说说吧 阅读全文
posted @ 2019-09-29 11:54 Eeyhan 阅读(10949) 评论(5) 推荐(8)