simon_T - 博客园

2022年6月7日

摘要：查看页面结构，编辑器嵌入iframe中需要首先切换到iframe，调用封装好的方法 # iframe 切换 def switch_iframe(self, loc, timeout=20, poll_fre=0.5): logger.info('iframe 切换操作:') try: # 切换 = 阅读全文

posted @ 2022-06-07 21:05 simon_T 阅读(251) 评论(0) 推荐(0)

2022年5月28日

scrapy框架增量式爬虫

摘要： #增量式爬虫 ##概念：监测网站数据更新的情况，只会爬取网站最新更新出来的数据。 ##分析：指定一个起始url 基于CrawlSpider获取其他页码链接基于Rule将其他页码链接进行请求从每一个页码对应的页面源码中解析出每一个电影详情页的URL # -*- coding: utf-8 -*- 阅读全文

posted @ 2022-05-28 10:43 simon_T 阅读(51) 评论(0) 推荐(0)

scrapy框架分布式爬虫

摘要： #分布式爬虫概念：我们需要搭建一个分布式的机群，让其对一组资源进行分布联合爬取。作用：提升爬取数据的效率 ##如何实现分布式？安装一个scrapy-redis的组件原生的scarapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫。 ###为阅读全文

posted @ 2022-05-28 10:30 simon_T 阅读(153) 评论(0) 推荐(0)

2022年5月27日

网页动态数据加载爬取

摘要： from selenium import webdriver from lxml import etree from time import sleep #实例化一个浏览器对象（传入浏览器的驱动成） bro = webdriver.Chrome(executable_path='./chromedr 阅读全文

posted @ 2022-05-27 22:52 simon_T 阅读(99) 评论(0) 推荐(0)

2022年5月26日

CrawlSpider爬取全站所有数据

摘要： #全站数据爬取的方式基于Spider：手动请求基于CrawlSpider #基于CrawlSpider爬取全部数据创建一个工程 cd XXX 创建爬虫文件（CrawlSpider）： scrapy genspider -t crawl xxx www.xxxx.com #链接提取器 LinkE 阅读全文

posted @ 2022-05-26 23:28 simon_T 阅读(179) 评论(0) 推荐(0)

scrapy框架爬取网易新闻内容-动态加载数据页面爬取方法处理

摘要： #需求爬取网易新闻中的新闻数据（标题和内容） 1.通过网易新闻的首页解析出五大板块对应的详情页的url（没有动态加载） 2.每一个板块对应的新闻标题都是动态加载出来的（动态加载） 3.通过解析出每一条新闻详情页的url获取详情页的页面源码，解析出新闻内容 #代码实现 ##数据解析需要获取国内、国阅读全文

posted @ 2022-05-26 21:52 simon_T 阅读(481) 评论(2) 推荐(0)

2022年5月25日

scrapy框架中间件（处理请求和代理）

摘要： #修改中间件 import random class MiddleproDownloaderMiddleware(object): # Not all methods need to be defined. If a method is not defined, # scrapy acts as i 阅读全文

posted @ 2022-05-25 23:24 simon_T 阅读(76) 评论(0) 推荐(0)

scrapy框架图片爬取

摘要：只需要将img的src的属性值进行解析，提交到管道，管道就会对图片的src进行请求发送获取图片的二进制类型的数据，且还会帮我们进行持久化存储 #使用流程： ##数据解析（图片的地址） ##将存储图片地址的item提交到制定的管道类 import scrapy from imgPro.items im 阅读全文

posted @ 2022-05-25 22:52 simon_T 阅读(165) 评论(0) 推荐(0)

2022年5月24日

scrapy框架请求传参处理（请求多个页面）

摘要： #前提如果爬取解析的数据不在同一张页面中。（深度爬取） #实战使用古诗词网站进行模拟 import scrapy from bossPro.items import BossproItem class BossSpider(scrapy.Spider): name = 'boss' # allo 阅读全文

posted @ 2022-05-24 23:17 simon_T 阅读(206) 评论(0) 推荐(0)

scrapy框架全站数据爬取

摘要： #前言每个网站都有很多页码，将网站中某板块下的全部页码对应的页面数据进行爬取实现方式有两种: 1、将所有页面的url添加到start_urls列表（不推荐） 2、自行手动进行请求发送（推荐）yield scrapy.Request(url,callback):callback专门用做于数据解析阅读全文

posted @ 2022-05-24 20:55 simon_T 阅读(157) 评论(0) 推荐(0)

simon成长日记

有缘相见万里来，志气相投常相见！

公告