上一页 1 2 3 4 5 6 7 ··· 20 下一页
摘要: 查看页面结构,编辑器嵌入iframe中 需要首先切换到iframe,调用封装好的方法 # iframe 切换 def switch_iframe(self, loc, timeout=20, poll_fre=0.5): logger.info('iframe 切换操作:') try: # 切换 = 阅读全文
posted @ 2022-06-07 21:05 simon_T 阅读(247) 评论(0) 推荐(0)
摘要: #增量式爬虫 ##概念:监测网站数据更新的情况,只会爬取网站最新更新出来的数据。 ##分析: 指定一个起始url 基于CrawlSpider获取其他页码链接 基于Rule将其他页码链接进行请求 从每一个页码对应的页面源码中解析出每一个电影详情页的URL # -*- coding: utf-8 -*- 阅读全文
posted @ 2022-05-28 10:43 simon_T 阅读(50) 评论(0) 推荐(0)
摘要: #分布式爬虫 概念:我们需要搭建一个分布式的机群,让其对一组资源进行分布联合爬取。 作用:提升爬取数据的效率 ##如何实现分布式? 安装一个scrapy-redis的组件 原生的scarapy是不可以实现分布式爬虫,必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫。 ###为 阅读全文
posted @ 2022-05-28 10:30 simon_T 阅读(146) 评论(0) 推荐(0)
摘要: from selenium import webdriver from lxml import etree from time import sleep #实例化一个浏览器对象(传入浏览器的驱动成) bro = webdriver.Chrome(executable_path='./chromedr 阅读全文
posted @ 2022-05-27 22:52 simon_T 阅读(92) 评论(0) 推荐(0)
摘要: #全站数据爬取的方式 基于Spider:手动请求 基于CrawlSpider #基于CrawlSpider爬取全部数据 创建一个工程 cd XXX 创建爬虫文件(CrawlSpider): scrapy genspider -t crawl xxx www.xxxx.com #链接提取器 LinkE 阅读全文
posted @ 2022-05-26 23:28 simon_T 阅读(164) 评论(0) 推荐(0)
摘要: #需求 爬取网易新闻中的新闻数据(标题和内容) 1.通过网易新闻的首页解析出五大板块对应的详情页的url(没有动态加载) 2.每一个板块对应的新闻标题都是动态加载出来的(动态加载) 3.通过解析出每一条新闻详情页的url获取详情页的页面源码,解析出新闻内容 #代码实现 ##数据解析 需要获取国内、国 阅读全文
posted @ 2022-05-26 21:52 simon_T 阅读(473) 评论(2) 推荐(0)
摘要: #修改中间件 import random class MiddleproDownloaderMiddleware(object): # Not all methods need to be defined. If a method is not defined, # scrapy acts as i 阅读全文
posted @ 2022-05-25 23:24 simon_T 阅读(76) 评论(0) 推荐(0)
摘要: 只需要将img的src的属性值进行解析,提交到管道,管道就会对图片的src进行请求发送获取图片的二进制类型的数据,且还会帮我们进行持久化存储 #使用流程: ##数据解析(图片的地址) ##将存储图片地址的item提交到制定的管道类 import scrapy from imgPro.items im 阅读全文
posted @ 2022-05-25 22:52 simon_T 阅读(158) 评论(0) 推荐(0)
摘要: #前提 如果爬取解析的数据不在同一张页面中。(深度爬取) #实战 使用古诗词网站进行模拟 import scrapy from bossPro.items import BossproItem class BossSpider(scrapy.Spider): name = 'boss' # allo 阅读全文
posted @ 2022-05-24 23:17 simon_T 阅读(199) 评论(0) 推荐(0)
摘要: #前言 每个网站都有很多页码,将网站中某板块下的全部页码对应的页面数据进行爬取 实现方式有两种: 1、将所有页面的url添加到start_urls列表(不推荐) 2、自行手动进行请求发送(推荐)yield scrapy.Request(url,callback):callback专门用做于数据解析 阅读全文
posted @ 2022-05-24 20:55 simon_T 阅读(151) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 20 下一页