随笔档案「2022年9月」 - 尘世风

scrapy解析与数据库

摘要：Scrapy功能学习 1 scrapy数据提取 Scrapy 还提供了自己的数据提取方法，即 Selector（选择器）。Selector 是基于 lxml 来构建的，支持 XPath 选择器、CSS 选择器以及正则表达式，功能全面，解析速度和准确度非常高 1.1. 直接使用 Selector 是一阅读全文

posted @ 2022-09-16 18:11 尘世风阅读(110) 评论(0) 推荐(0)

Python BeautifulSoup简介

摘要：1.BeautifulSoup简介 BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库；它能够通过转换器实现惯用的文档导航、查找、修改文档的方式。 BeautifulSoup是一个基于re开发的解析库，可以提供一些强大的解析功能；使用BeautifulSoup能够提阅读全文

posted @ 2022-09-15 20:11 尘世风阅读(1019) 评论(0) 推荐(0)

爬虫技术-Scrapy框架介绍

摘要：Scrapy采集框架 1 学习目标 1、框架流程和结构设计原理 2、框架爬虫程序编写 3、框架日志模块使用 4、框架请求发送流程 2 scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛，用户只需要定制开发几个模块就可以轻松的实现阅读全文

posted @ 2022-09-14 21:52 尘世风阅读(505) 评论(0) 推荐(0)

爬虫技术-滑块验证码

摘要：滑块验证码 1. 滑块简介 **注：**重点是识别滑块缺口，测出需要拖动的距离 1.1 核心步骤从服务器随机取一张图片，并对图片上的随机x,y坐标和宽高一块区域抠图；根据步骤一的坐标和宽高，使用二维数组保存原图上抠图区域的像素点坐标；根据步骤二的坐标点，对原图的抠图区域的颜色进行处理。完成以阅读全文

posted @ 2022-09-09 17:55 尘世风阅读(4959) 评论(2) 推荐(1)

爬虫技术-验证码处理

摘要：验证码反爬虫 1. 简介我们在浏览网站的时候经常会遇到各种各样的验证码，在多数情况下这些验证码会出现在登录账号的时候，也可能会出现在访问页面的过程中，严格来说，这些行为都算验证码反爬虫。样例：https://my.cnki.net/Register/CommonRegister.aspx?r 阅读全文

posted @ 2022-09-09 08:51 尘世风阅读(520) 评论(0) 推荐(0)

爬虫技术-字体反爬

摘要：文本混淆章节 1. 文本混淆简介简单而言就是利用前端技术干扰，页面可以正常展示，而使用爬虫下载后无法提取正常的数据。 1.1 常见的干扰方式字体反爬 2. 字体反爬 2.1 字体反爬简介在 CSS3 之前，Web 开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用@font-f 阅读全文

posted @ 2022-09-07 15:37 尘世风阅读(1509) 评论(2) 推荐(0)

爬虫技术-RPC技术讲解

摘要：RPC 技术 RPC，英文 RangPaCong，中文让爬虫，旨在为爬虫开路，秒杀一切，让爬虫畅通无阻！! 1. JSRPC 简介 RPC 技术是非常复杂的，对于我们搞爬虫、逆向的来说，不需要完全了解，只需要知道这项技术如何在逆向中应用就行了。 RPC 在逆向中，简单来说就是将本地和浏览器，看做阅读全文

posted @ 2022-09-05 00:24 尘世风阅读(4035) 评论(1) 推荐(0)

爬虫技术-cookie反爬讲解

摘要：COOkIE反爬虫 1 cookie反爬简介 Cookie 反爬虫指的是服务器端通过校验请求头中的 Cookie 值来区分正常用户和爬虫程序的手段，这种手段被广泛应用在 Web 应用中。 1.1 cookie加密原理 2 cookie逆向实践 2.1 逆向目标地址：http://www.zjmaz 阅读全文

posted @ 2022-09-04 17:24 尘世风阅读(2294) 评论(0) 推荐(0)

尘世风

纸上得来终觉浅，绝知此事要躬行！

09 2022 档案

公告