EricYJChung - 博客园

2022年6月6日

摘要： django小细节: python manage.py createsuperuser 这个是创建django后台的超级管理员,跟mysql数据库自身的管理员不相关 superuser是创建在项目自身使用的数据库的auth_user表中的阅读全文

posted @ 2022-06-06 10:38 EricYJChung 阅读(34) 评论(0) 推荐(0)

2022年6月5日

django中间件详解

摘要：中间件定义: 中间件就是在目标和结果之间进行的额外处理过程，在Django中就是request和response之间进行的处理，相对来说实现起来比较简单，但是要注意它是对全局有效的，可以在全局范围内改变输入和输出结果，因此需要谨慎使用，否则不仅会造成难以定位的错误，而且可能会影响整体性能。中间件作阅读全文

posted @ 2022-06-05 10:34 EricYJChung 阅读(298) 评论(0) 推荐(0)

2022年6月2日

爬虫--增量式爬虫

摘要：增量式爬虫: --概念:检测网站数据更新的情况,只会爬取网站最新更新出来的数据 --分析: --指定其实url --基于CrawlSpider获取其他页码链接 --基于Rule将其他页码链接进行请求 --从每一个页码对应的页面源码中解析出详情页的url --检测详情页url是否已经爬取过,爬过略过, 阅读全文

posted @ 2022-06-02 16:02 EricYJChung 阅读(194) 评论(0) 推荐(0)

爬虫--分布式爬虫

摘要：分布式爬虫 --实现方式:scrapy+redis(scrapy结合scrapy-redis组件) --原生的scrapy框架是无法实现分布式 --分布式: 搭建一个分布式的机群,让机群中的每一台电脑执行同一组程序对同一组资源进行联合且分布的爬取 --原生的scrapy框架 --调度器无法被分布式机阅读全文

posted @ 2022-06-02 14:31 EricYJChung 阅读(78) 评论(0) 推荐(0)

爬虫--CrawlSpider及深度全站爬取

摘要： CrawlSpider: --是Spider的一个子类.Spider是爬虫文件中爬虫类的父类 --作用:被用于专业实现全站数据爬取,将一个页面上所有页码对应的数据进行爬取 --基本使用: --创建一个基于CrawlSpider的爬虫文件 --scrapy genspider -t crawl Spi 阅读全文

posted @ 2022-06-02 11:10 EricYJChung 阅读(266) 评论(0) 推荐(0)

爬虫案例--网易新闻板块页面及详情抓取(scrapy中间件+selenium)

摘要：需求:爬取网易新闻中的新闻数据(标题和内容) 页面分析: --网页新闻页面板块名称非动态加载,解析板块名称和板块url --板块页面对应的页面是动态加载的,解析新闻标题和新闻详情页url --板块页面的新闻详情页里的内容非动态加载,解析新闻内容解析分析: --板块名称为非动态加载,通过scrapy 阅读全文

posted @ 2022-06-02 10:05 EricYJChung 阅读(250) 评论(0) 推荐(0)

2022年6月1日

UA池

摘要： “Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)”,“Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)”,“Mozilla/ 阅读全文

posted @ 2022-06-01 16:08 EricYJChung 阅读(291) 评论(0) 推荐(0)

2022年5月31日

爬虫--scrapy框架

摘要：框架:集成了很多功能并且具有很强通用型的一个项目模板如何学习框架: 学习框架封装功能的用法; 框架进阶:学习源码及编程思想 scrapy: 高性能持久化存储,异步的数据下载,高性能的数据分析,分布式 scrapy框架的基本使用: --环境安装: mac / linux :pip install s 阅读全文

posted @ 2022-05-31 17:26 EricYJChung 阅读(280) 评论(0) 推荐(0)

爬虫案例--基于selenium实现12306模拟登录

摘要： 12306模拟登录: --使用selenium打开登录页面 --对当前selenium打开的页面进行截图 --对当前图片局部区域进行裁剪 --因为如果获取图片url进行下载,相当于第二次请求图片,那么图片和打开的页面会不一致 --使用超级鹰识别验证码图片(坐标) 裁剪验证码图片并保存: # 需求:将阅读全文

posted @ 2022-05-31 14:59 EricYJChung 阅读(82) 评论(0) 推荐(0)

爬虫--selenium模块

摘要： selenium模块与爬虫的关系: --方便便捷的获取网站中动态加载的数据 --便捷实现模拟登录什么是selenium模块 --基于浏览器自动化的一个模块.python代码调用浏览器,浏览器根据代码完成自动化操作. selenium使用流程: --环境安装:pip install selenium 阅读全文

posted @ 2022-05-31 10:57 EricYJChung 阅读(88) 评论(0) 推荐(0)

ericyjchung 从心出发,不论归期

公告