2022 年 4月 27 日随笔档案 - 志强爱璇璇

2022年4月27日

摘要： #scrapy是基于五大核心组件完成数据的爬取和持久化存储的 ##引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) ##调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的阅读全文

posted @ 2022-04-27 23:58 志强爱璇璇阅读(91) 评论(0) 推荐(0)

scrapy -- 图片数据爬取之ImagesPipeline

摘要： #基于图片数据的爬取，可以用框架中封装好的类，去进行图片的爬取，已经数据持久化存储 ##基于站长素材网站，进行数据的爬取因为该网站会涉及到一个图片懒加载的反爬机制 ###代码示例： #1.爬虫文件.py代码示例： import scrapy from imgsPro.items import 阅读全文

posted @ 2022-04-27 23:37 志强爱璇璇阅读(304) 评论(0) 推荐(0)

scrapy -- 请求传参

摘要： #为什么要请求传参，使用的场景是什么呢？什么是请求传参：就是在爬虫文件中，定义了多个回调函数时，却想传入同一个管道中，来进行数据存储使用场景：当我们解析的数据不在同一个页面时，但又想把不同页面爬取到的数据传到一个管道里，就需要用到请求传参 #案例：基于BOSS直聘网，爬取不同网页的数据 ##代码阅读全文

posted @ 2022-04-27 23:10 志强爱璇璇阅读(51) 评论(0) 推荐(0)

scrapy -- 基于Spider的全站数据爬取

摘要： #基于Spider的全站数据爬取 ##什么是全站数据爬取？就是将网站中某板块下的全部页码对应的页面数据进行爬取 ##下面我基于校花网进行全站数据爬取 #1.爬虫文件.py代码示例： import scrapy class XiaohuaSpider(scrapy.Spider): name = 阅读全文

posted @ 2022-04-27 22:23 志强爱璇璇阅读(88) 评论(0) 推荐(0)

scrapy框架 - 入门

摘要： #一、什么是scrapy框架？爬虫中封装好的一个明星框架。功能：高性能的持久化存储，异步的数据下载，高性能的数据解析，分布式 #二、scrapy框架的基本使用 ##1.环境安装： mac or linux:pip3 install scrapy windows: pip install wheel 阅读全文

posted @ 2022-04-27 22:09 志强爱璇璇阅读(43) 评论(0) 推荐(0)

公告