09 2022 档案
摘要:Scrapy功能学习 1 scrapy数据提取 Scrapy 还提供了自己的数据提取方法,即 Selector(选择器)。Selector 是基于 lxml 来构建的,支持 XPath 选择器、CSS 选择器以及正则表达式,功能全面,解析速度和准确度非常高 1.1. 直接使用 Selector 是一
阅读全文
摘要:1.BeautifulSoup简介 BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库;它能够通过转换器实现惯用的文档导航、查找、修改文档的方式。 BeautifulSoup是一个基于re开发的解析库,可以提供一些强大的解析功能;使用BeautifulSoup能够提
阅读全文
摘要:Scrapy采集框架 1 学习目标 1、框架流程和结构设计原理 2、框架爬虫程序编写 3、框架日志模块使用 4、框架请求发送流程 2 scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛,用户只需要定制开发几个模块就可以轻松的实现
阅读全文
摘要:滑块验证码 1. 滑块简介 **注:**重点是识别滑块缺口,测出需要拖动的距离 1.1 核心步骤 从服务器随机取一张图片,并对图片上的随机x,y坐标和宽高一块区域抠图; 根据步骤一的坐标和宽高,使用二维数组保存原图上抠图区域的像素点坐标; 根据步骤二的坐标点,对原图的抠图区域的颜色进行处理。 完成以
阅读全文
摘要:验证码反爬虫 1. 简介 我们在浏览网站的时候经常会遇到各种各样的验证码,在多数情况下这些验证码会出现在登录账号的时候,也可能会出现在访问页面的过程中,严格来说,这些行为都算验证码反爬虫。 样例:https://my.cnki.net/Register/CommonRegister.aspx?r
阅读全文
摘要:文本混淆章节 1. 文本混淆简介 简单而言就是利用前端技术干扰,页面可以正常展示,而使用爬虫下载后无法提取正常的数据。 1.1 常见的干扰方式 字体反爬 2. 字体反爬 2.1 字体反爬简介 在 CSS3 之前,Web 开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用@font-f
阅读全文
摘要:RPC 技术 RPC,英文 RangPaCong,中文让爬虫,旨在为爬虫开路,秒杀一切,让爬虫畅通无阻!! 1. JSRPC 简介 RPC 技术是非常复杂的,对于我们搞爬虫、逆向的来说,不需要完全了解,只需要知道这项技术如何在逆向中应用就行了。 RPC 在逆向中,简单来说就是将本地和浏览器,看做
阅读全文
摘要:COOkIE反爬虫 1 cookie反爬简介 Cookie 反爬虫指的是服务器端通过校验请求头中的 Cookie 值来区分正常用户和爬虫程序的手段,这种手段被广泛应用在 Web 应用中。 1.1 cookie加密原理 2 cookie逆向实践 2.1 逆向目标 地址:http://www.zjmaz
阅读全文

浙公网安备 33010602011771号