随笔分类 -  python爬虫

摘要:转自 [ 不止于python ] 目标网站 https://match.yuanrenxue.com/match/1 目标要求 抓取所有(5页)机票的价格,并计算所有机票价格的平均值,填入答案。 网站分析 这种js逆向的问题, 首先要打开开发者工具(控制台), 刷新网页, 很明显这个地址, 就是我们 阅读全文
posted @ 2021-11-17 18:02 不止于python 阅读(2046) 评论(0) 推荐(0)
摘要:来自 [ 不止于python ] 简介 reCAPTCHA项目是由卡内基梅隆大学所发展的系统,主要目的是利用CAPTCHA技术来帮助典籍数字化的进行,这个项目将由书本扫描下来无法准确的被光学文字识别技术识别的文字显示在CAPTCHA问题中,让人类在回答CAPTCHA问题时用人脑加以识别[2]。reC 阅读全文
posted @ 2021-11-17 17:47 不止于python 阅读(3974) 评论(0) 推荐(0)
摘要:字体反扒系列 爬虫之路: 字体文件反爬一 爬虫之路: 字体文件反爬二(动态字体文件) 本文转自 [ 不止于python ] 开始吧! 小伙伴留言说, 脚本用不了了, 抽了空就先打开网站看一下, 结果发现看不见字符的源码了, 在控制台, 源码, 甚至python请求的html都变成了符号 页面html 阅读全文
posted @ 2021-05-12 18:48 不止于python 阅读(157) 评论(0) 推荐(0)
摘要:转自 「 不止于python 」 前言 在抓包的时候, 配置过程顺利的话, 还行, 但有时候, 搜索了几百遍了教程了, 步骤都对, 但就是抓不到包, 今天来介绍几款手机版的抓包app, 摆脱配置证书, 一键开始抓包 安卓 抓包精灵 功能介绍 一款通过VPN抓取和解析安卓手机https网络请求的工具。 阅读全文
posted @ 2020-12-22 21:14 不止于python 阅读(2890) 评论(0) 推荐(0)
摘要:以下解密部分转自 [ 不止于python ] 破解参数 这篇来讲讲逆向破解js的方法, 先拿美团外卖的请求参数, X-FOR-WITH 练练手 请求地址: https://h5.waimai.meituan.com/waimai/mindex/home 打开Chrom, 打开控制台, 查看请求 发现 阅读全文
posted @ 2020-12-09 18:35 不止于python 阅读(3711) 评论(0) 推荐(3)
摘要:上一篇解决了但页面的字体反爬, 这篇记录下如何解决动态字体文件, 编码不同, 文字顺序不同的情况 源码在最后 冷静分析页面 打开一个页面, 发现字体文件地址是动态的, 这个倒是好说, 写个正则, 就可以动态匹配出来 先下载下来一个新页面的字体文件, 做一下对比, 如图 mmp, 发现编码, 字体顺序 阅读全文
posted @ 2020-01-13 10:21 不止于python 阅读(1760) 评论(0) 推荐(0)
摘要:前言 今天就来记录一下破解汽车之家的字体反爬, 完整代码在末尾 分析页面 首先我们看一下页面显示, 全都是"" 在查看下源码, 显示的是"" 很明显的字体反爬, 接下来我们就一步步来揭开字体文件的神秘面纱 查看字体文件 首先将字体文件下载到本地 使用在线工具查看字体文件内容, 在线 阅读全文
posted @ 2020-01-10 12:00 不止于python 阅读(1769) 评论(1) 推荐(0)
摘要:使用python下载超大文件, 直接全部下载, 文件过大, 可能会造成内存不足, 这时候要使用requests 的 stream模式, 主要代码如下 iter_content:一块一块的遍历要下载的内容iter_lines:一行一行的遍历要下载的内容 python实现文件下载图片视频 如有错误欢迎指 阅读全文
posted @ 2019-10-11 12:41 不止于python 阅读(5472) 评论(0) 推荐(2)
摘要:😂其实最根本的解决办法就是 想办法把所有的随机请求头保存到本地, 再本地运行随机获取, 最多就会导入路径报错 这里我已经整理好几份不同的随机请求头格式文件, 代码已上传到git 点击这里查看 如有错误 欢迎交流 阅读全文
posted @ 2019-09-28 13:20 不止于python 阅读(1352) 评论(0) 推荐(0)
摘要:解决办法: from lxml import etree xml = etree.parse("./cee.xml") root = xml.getroot() print(root.xpath(".//i:Reviews", namespaces={"i":"http://www.bazaarvo 阅读全文
posted @ 2019-07-23 16:05 不止于python 阅读(1291) 评论(0) 推荐(0)
摘要:转自:代码分析Python requests库中文编码问题 Python reqeusts在作为代理爬虫节点抓取不同字符集网站时遇到的一些问题总结. 简单说就是中文乱码的问题. 如果单纯的抓取微博,微信,电商,那么字符集charset很容易就确认,你甚至可以单方面把encoding给固定住。 但作为 阅读全文
posted @ 2018-10-23 10:50 不止于python 阅读(6541) 评论(0) 推荐(1)
摘要:JSONPath - 是xpath在json的应用。 JSONPath - 是xpath在json的应用。 xml最大的优点就有大量的工具可以分析,转换,和选择性的提取文档中的数据。XPath是这些最强大的工具之一。 如果可以使用xpath来解析json,以下的问题可以被解决: 1,数据不使用特殊的 阅读全文
posted @ 2018-08-02 09:39 不止于python 阅读(2258) 评论(0) 推荐(0)
摘要:主要介绍如何抓取app数据及抓包工具的使用,能看到这相信你已经有爬虫基础了 编不下去了,主要是我懒,直接开干吧! 一.使用环境和工具 windows + python3 + Jsonpath + Charles + MuMu模拟器 二.下载工具 Charles下载:https://www.charl 阅读全文
posted @ 2018-08-02 01:34 不止于python 阅读(2719) 评论(0) 推荐(0)
摘要:1.注册开发者云打码账号: 注册账号 2.添加新软件 进入开发者后台->我的软件->输入软件名称(自定义) 提交成功后,会返回: 软件代码即为后面的appId,通讯密匙为:appKey 3.下载对应的语言使用说明文档,这里以python为例:云打码说明文档 点击下载解压就好了,解压完之后为: 4.到 阅读全文
posted @ 2018-07-30 20:22 不止于python 阅读(3752) 评论(0) 推荐(0)
摘要:百度技术文档 首先要注册百度云账号: 在首页,找到图像识别,创建应用,选择相应的功能,创建 安装接口模块: 简单识别一: 简单图形验证码: 图片: 结果为: 返回数据的参数详解: 输出结果中,各字段分别代表: log_id : 唯一的log id,用于定位问题 direction : 图像方向,传入 阅读全文
posted @ 2018-07-24 18:51 不止于python 阅读(2026) 评论(0) 推荐(0)
摘要:HTTP是什么? http是超文本传输协议用来在web浏览器和网站服务器之间传递数据信息,http以明文的方式发送内容,不提供任何方式的数据加密,如果攻击者截获了Web浏览器和网站服务器之间的传输报文,就可以直接读懂其中的信息,因此,HTTP协议不适合传输一些敏感信息,比如:信用卡号、密码等支付信息 阅读全文
posted @ 2018-07-20 23:59 不止于python 阅读(355) 评论(0) 推荐(0)
摘要:一.存储数据库 1.问题: 当保存指定字段存入数据库的时候,如果仔细查看数据库会发现,主键id是不连续的值,即使设置了失败后事务回滚,也无济于事 也就是说,不管数据是否插入成功,id都会自增1 原因: innodb的自增是缓存在内存字典中的,分配方式是先预留,然后再插入的。所以插入失败不会回滚内存字 阅读全文
posted @ 2018-07-20 09:01 不止于python 阅读(807) 评论(0) 推荐(0)
摘要:Scrapy-Redis分布式策略 原理图: 假设有四台电脑:Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2,任意一台电脑都可以作为 Master端 或 Slaver端,比如: Master端(核心服务器) :使用 Windows 10,搭建一个Redis数据 阅读全文
posted @ 2018-07-19 19:47 不止于python 阅读(657) 评论(0) 推荐(0)
摘要:Scrapy--CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类。 此案例采用的是CrawlSpider类实现爬虫。 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(ru 阅读全文
posted @ 2018-07-19 19:39 不止于python 阅读(508) 评论(0) 推荐(0)
摘要:Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们 阅读全文
posted @ 2018-07-19 19:21 不止于python 阅读(414) 评论(0) 推荐(0)