摘要: Scarpy05--增量式爬虫、分布式爬虫 一. 增量式爬虫 顾名思义:可以对网站进行反复抓取,然后发现新东西了就保存起来,遇到了以前抓取过的内容就自动过滤掉即可 其核心思想:去重,并且可以反复去重。随时运行一下,将不同的数据保存出来,相同的数据去除掉(不保存)即可 增量爬虫的核心:去除重复 去除u 阅读全文
posted @ 2024-04-25 01:01 Edmond辉仔 阅读(3) 评论(0) 推荐(0) 编辑
摘要: Scrapy04--CrawlSpider、链接提取器、源码模板文件 案例:汽车之家,全站抓取二手车的信息 来区分Spider 和 CrawlSpider 注意:汽车之家的访问频率 要控制一下, 要不然会跳验证 settings.py 中设置 DOWNLOAD_DELAY = 3 一、常规Spide 阅读全文
posted @ 2024-04-24 15:53 Edmond辉仔 阅读(3) 评论(0) 推荐(0) 编辑
摘要: Scrapy03--分页、处理cookie与中间件 一、分页(多页)抓取思路 ### 不涉及scrapy,所有网站分页的抓取思路 ### 1.正常的 普通分页 分页表现: 上一页 1,2,3,4,5,6 下一页 # 情况1: 页面源代码中 有分页的url 解决方案: 1.访问第一页 > 提取下一页的 阅读全文
posted @ 2024-04-18 01:25 Edmond辉仔 阅读(3) 评论(0) 推荐(0) 编辑
摘要: Scrapy02--管道 0. 关于管道 上一节内容,我们已经可以从spider中提取到数据. 然后通过引擎将数据传递给pipeline 那么在pipeline中如何对数据进行保存呢? 主要针对四种数据存储,展开讲解 前三个案例以:https://match.lottery.sina.com.cn/ 阅读全文
posted @ 2024-04-17 00:49 Edmond辉仔 阅读(2) 评论(0) 推荐(0) 编辑
摘要: Scrapy01--基本介绍与初步使用 一、爬虫工程化 何为工程化,就是让你的程序更加的有体系,有逻辑,更加的模块化. 到目前为止,我们所编写的爬虫我们都是从头到尾的每一步都要亲力亲为. 这样做固然有其优点(可控性更好),但是各位请认真思考. 这样的代码逻辑是不能形成批量生产的效果的(写100个爬虫 阅读全文
posted @ 2024-04-15 16:34 Edmond辉仔 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 01.浏览器 # 一个网页的加载全过程 1. 服务器端渲染 html的内容和数据在服务器进行融合. 在浏览器端看到的页面源代码中. 有你需要的数据 2. 客户端(浏览器)渲染 html的内容和数据进行融合是发生在你的浏览器上的. 这个过程一般通过脚本来完成(javascript) 我们通过浏览器可以 阅读全文
posted @ 2024-04-11 16:54 Edmond辉仔 阅读(4) 评论(0) 推荐(0) 编辑
摘要: djangorestframework-simplejwt使用 转载于:https://www.cnblogs.com/liuqingzheng/p/17942227 1 快速使用 1.1 配置 # 1 安装 pip install djangorestframework-simplejwt # 2 阅读全文
posted @ 2024-02-19 12:47 Edmond辉仔 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 一 前期准备 1.1 概述 selenium本身是一个自动化测试工具。它可以让python代码调用浏览器,并获取到浏览器中加载的各种资源。 我们可以利用selenium提供的各项功能, 帮助我们完成数据的抓取 1.2 学习目标 掌握 selenium发送请求,加载网页的方法 掌握 selenium简 阅读全文
posted @ 2024-01-19 23:21 Edmond辉仔 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 案例:抓取每日影视的m3u8视频 1 思路分析 练习:抓取 每日影视 首页/域名 https://sp.weoknow.com/ 无耻之徒视频页:https://sp.weoknow.com/index.php/vod/play/id/28124/sid/1/nid/1.html # 分析 0:获得 阅读全文
posted @ 2024-01-16 00:41 Edmond辉仔 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 抓取m3u8类型的视频 1 思路步骤 视频url:https://www.9meiju.cc/mohuankehuan/shandianxiadibaji/1-1.html 打开网址分析当前视频是由多个片段组成还是单独一个视频 如果是一个单独视频,则找到网址,直接下载即可 如果为多个片段的视频,则需 阅读全文
posted @ 2024-01-16 00:39 Edmond辉仔 阅读(186) 评论(0) 推荐(0) 编辑