欢迎来到赛兔子家园

文章分类 -  Python爬虫

crawlspider爬虫案例
摘要:CrawlSpider CrawlSpider是spider的一个子类,Spider是它的父类; 作用:被用作专业实现全站数据爬取,将一个页面下所有的页码对应的数据进行爬取。 示例 需求1: 爬取指南针找房网租房板块下,所有房源列表中的标题&详情页的简介,需要翻页爬取; 将爬取到的标题和详情已jso 阅读全文

posted @ 2022-07-01 15:43 赛兔子

xpath数据解析
摘要:xpath解析 安装 :pip install lxml 解析原理html标签是以树状的形式进行展示,实例化一个etree对象且把待解析的页面源码数据加载到该对象中,调用etree对象的xpath方法结合着不同形式的xpath表达式进行标签定位和数据提取. 实例化etree对象: etree.par 阅读全文

posted @ 2021-09-02 23:25 赛兔子

逆向之闭包技巧
摘要:需求 凡科网登录密码逆向。 地址:https://i.fkw.com/ 具体流程 通过谷歌浏览器开发者工具登录请求,发现是使用md5加密 查找进行md5加密的前端js代码 进入md5加密函数的代码页面,分析代码 复制到js调试工具中调试代码 总结:需要逆向的js函数实现是出现在一个闭包中,那么直接将 阅读全文

posted @ 2021-09-01 20:47 赛兔子

STEAM密码逆向
摘要:需求 Steam站登录密码逆向破解,提供逆向破解成功模块steam.py,爬虫通过调用该模块中的方法获取登录密码进行后续操作。 url:https://store.steampowered.com/ 具体流程 加密说明: 对称和非对称加密中都需要用到相关的秘钥。对称加密中只需要一个公钥即可。 非对称 阅读全文

posted @ 2021-08-31 21:06 赛兔子 阅读(726) 评论(0) 推荐(0)

PyExexJS+微信公众平台js算法改写
摘要:逆向环境 js调试工具,使用(发条js调试工具),用来调试jsd代码。 nodejs环境、python3.7.1 、python中PyExcejs模块:pip install PyExecJs PyExcejs模块用来执行js代码 具体流程 1、通过谷歌浏览器开发者工具对逆向的请求和前端代码进行分析 阅读全文

posted @ 2021-08-30 20:01 赛兔子

常见加密算法
摘要:js常见的加密方式 常见的加密算法基本分为几类 线性散列算法(签名算法)MD5 对称性加密算法AES DES 非对称性加密算法 RSA Md5加密 MD5是一种被广泛使用的线性散列算法,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整的一致性。且MD5加密之后 阅读全文

posted @ 2021-08-08 22:03 赛兔子

scrapy分布式
摘要:分布式 原生的scrapy框架无法实现分布式,需要通过:scrapy+redis(scrapy结合着scrapy-redis组件)来实现。 什么是分布式? 需要搭建一个分布式的集群,让集群中的每一台电脑执行同一组程序,最后对同一组资源进行联合且分布的数据爬取。 为什么原生的scrapy框架无法实现分 阅读全文

posted @ 2021-07-28 21:05 赛兔子

selenium在scrapy中使用&爬取网易新闻
摘要:selenium在scrapy中的使用 示例: 需求:爬取网易新闻中的国内、国际,二个板块下所有的新闻数据(标题+内容) 地址:https://news.163.com/ 爬取网站分析: 首页需要爬取2个板块对应的url,没有动态加载的数据 每一个板块对应的页面中新闻标题是【动态加载】,爬取新闻标题 阅读全文

posted @ 2021-07-27 21:34 赛兔子

scrapy下载大文件
摘要:大文件下载 大文件下载,需要将请求到的数据在管道中进行下载; 依赖: Pillow模块 安装:pip install Pillow 若安装失败,使用下载地址,下载到本地安装:https://www.lfd.uci.edu/~gohlke/pythonlibs/#_pillow 实例: 需求:将摄图网 阅读全文

posted @ 2021-07-25 20:24 赛兔子

scrapy手动发送请求
摘要:scrapy手动发送请求 要求:使用scrapy手动发送请求实现数据爬取。 爬虫文件parse()方法中通过yield scrapy.Requests()来进行手动发请求: yield scrapy.Request(url,callback) :GET请求 callback指定解析函数,用于解析数据 阅读全文

posted @ 2021-07-22 21:51 赛兔子

scrapy框架中持久存储
摘要:scrapy数据解析 使用:response.xpath('xpath表达式') scrapy中封装的xpath和etree中的xpath区别: scrapy的xpath将定位到标签中存储的值或者属性取出,返回Selector对象。相关数据值存储在该对象的data属性中,需要调用extract、ex 阅读全文

posted @ 2021-07-20 21:08 赛兔子

scrapy框架
摘要:scrapy爬虫框架 简介:所谓框架其实就是一个被集成了很多功能且具有很强通用性的一个项目模板; 学习:学习框架中集成的各种功能特性; scrapy专门用于异步爬虫的框架 高性能的数据解析、请求发送、持久化存储、全站数据爬取、中间件、分布式... 环境安装 windows安装 1、pip insta 阅读全文

posted @ 2021-07-19 19:45 赛兔子

selenium基础操作
摘要:selenium 概览:基于浏览器自动化的模块 自动化:可以通过代码指定一些列的行为动作,然后将其作用到浏览器。 安装:pip install selenium selenium和爬虫之间的关联 便捷的捕获到任意形式动态加载的数据(可见即可得) 实现模拟登录 实例: 需求:打开京东后搜索文本框在输入 阅读全文

posted @ 2021-07-18 16:41 赛兔子 阅读(137) 评论(0) 推荐(0)

爬虫介绍
摘要:爬虫简介 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。 爬虫分类 通用爬虫:要求爬取一整张页面源码数据 聚焦爬虫:要求爬取一张页面中的局部数据,聚焦爬虫一定是建立在通用爬虫基础之上。 增量爬虫:用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据。 分布式爬虫:提高爬取效 阅读全文

posted @ 2021-07-17 19:21 赛兔子

验证码识别
摘要:验证码识别 基于线上的大码平台识别验证码 打码平台 : 超级鹰(常用)先注册(用户中心的身份)-->登录(用户中心) 官网:http://www.chaojiying.com/about.html 云打码 打码兔 超级鹰的使用流程 注册登录 查询余额,请充值 创建一个软件ID 下载一个示例代码 需要 阅读全文

posted @ 2021-07-17 15:53 赛兔子 阅读(732) 评论(0) 推荐(0)

request模块高级操作
摘要:cookie&代理概述 cookie 代理机制 cookie 是存储在客户端的一组键值对。 web中cookie的典型应用:免密登录。 cookie和爬虫之间的关联 sometimes,对页面进行请求的时候,如果请求的过程中不携带cookie,那么将无法请求到正确的页面数据。因此cookie是爬虫中 阅读全文

posted @ 2021-07-17 12:11 赛兔子

数据解析
摘要:数据解析方式: 正则 (了解) bs4 (常用) xpath (最常用) 数据解析的作用? 用来实现聚焦爬虫。 数据解析的通用原理是什么? 原因:网页中显示的数据都是存储在html的标签中或者标签的属性中。 数据解析原理: 指定标签的定位 取出标签中存储的数据或者标签属性中的数据 正则(re)实例: 阅读全文

posted @ 2021-07-16 20:53 赛兔子

requests基本使用实例
摘要:requests requests是爬虫中基于网络请求的模块 安装:pip install requests 作用:模拟浏览器发起请求 编码流程: 指定url 发起请求 获取响应数据(爬取到的页面源码数据) 持久化存储 爬取搜狗首页的页面源码数据 #!/usr/bin/env python # -* 阅读全文

posted @ 2021-07-14 23:08 赛兔子

Python解析库lxml
摘要:使用XPath XPath即XML路径语言,它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。 在做爬虫时,完全可以使用XPath来做相应的信息抽取。 1、Xpath概述 Xpath的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外, 阅读全文

posted @ 2020-01-22 02:11 赛兔子

Windwos系统中安装Scrapy爬虫框架
摘要:Windows中安装 安装前必备环境包 pip安装库的另外姿势 使用豆瓣源安装第三方库 用-i指定 >pip3 install -i https://pypi.doubanio.com/simple/ 包名 【该种方法适用所有包安装】 两种方法建议使用国内豆瓣源,下载会快很多; 1、whell pi 阅读全文

posted @ 2018-06-01 21:32 赛兔子

导航