摘要:
爬取小说 spider import scrapy from xiaoshuo.items import XiaoshuoItem class XiaoshuoSpiderSpider(scrapy.Spider): name = 'xiaoshuo_spider' allowed_domains 阅读全文
posted @ 2022-02-26 19:50
齐天_大圣
阅读(31)
评论(0)
推荐(0)
摘要:
1. 介绍 Scrapy提供了一个 item pipeline ,来下载属于某个特定项目的图片,比如,当你抓取产品时,也想把它们的图片下载到本地。 这条管道,被称作图片管道,在 ImagesPipeline 类中实现,提供了一个方便并具有额外特性的方法,来下载并本地存储图片: 将所有下载的图片转换成 阅读全文
posted @ 2022-02-26 19:49
齐天_大圣
阅读(171)
评论(0)
推荐(0)
摘要:
1. 数据的提取 1.1 控制台打印 import scrapy class DoubanSpider(scrapy.Spider): name = 'douban' allwed_url = 'douban.com' start_urls = [ 'https://movie.douban.com 阅读全文
posted @ 2022-02-26 19:48
齐天_大圣
阅读(153)
评论(0)
推荐(0)
摘要:
1. Item Pipeline 介绍 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃 阅读全文
posted @ 2022-02-26 19:48
齐天_大圣
阅读(48)
评论(0)
推荐(0)
摘要:
1 基本使用 1.1 创建项目 运行命令: scrapy startproject myfrist(your_project_name) 文件说明: 名称 作用 scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py 阅读全文
posted @ 2022-02-26 19:46
齐天_大圣
阅读(53)
评论(0)
推荐(0)
摘要:
1 Scrapy提取项目 从网页中提取数据,Scrapy 使用基于 XPath 和 CSS 表达式的技术叫做选择器。以下是 XPath 表达式的一些例子: 这将选择 HTML 文档中的 <head> 元素中的 <title> 元素 /html/head/title 这将选择 <title> 元素中的 阅读全文
posted @ 2022-02-26 19:46
齐天_大圣
阅读(112)
评论(0)
推荐(0)
摘要:
selenium参数的使用 1 元素拖拽 要完成元素的拖拽,首先你需要指定被拖动的元素和拖动目标元素,然后利用 ActionChains 类来实现 <!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <meta name="v 阅读全文
posted @ 2022-02-26 19:45
齐天_大圣
阅读(254)
评论(0)
推荐(0)
摘要:
1. Scrapy 框架介绍 Scrapy 是一个用于抓取网站和提取结构化数据的应用程序框架,可用于各种有用的应用程序,如数据挖掘、信息处理或历史存档。 尽管 Scrapy 最初是为网络抓取而设计的,但它也可用于使用 API提取数据或用作通用网络爬虫。 1.1 为什么要使用Scrapy? 它更容易构 阅读全文
posted @ 2022-02-26 19:45
齐天_大圣
阅读(110)
评论(0)
推荐(0)
摘要:
1 等待 1.1 强制等待 使用 time.sleep 作用: 当代码运行到强制等待这一行的时候,无论出于什么原因,都强制等待指定的时间,需要通过time模块实现 优点:简单 缺点:无法做有效的判断,会浪费时间 1.2 隐式等待 到了一定的时间发现元素还没有加载,则继续等待我们指定的时间,如果超过了 阅读全文
posted @ 2022-02-26 19:44
齐天_大圣
阅读(70)
评论(0)
推荐(0)
摘要:
selenium 处理下拉框 下拉框是我们最常见的一种页面元素,对于一般的元素,我们只需要一次就定位,但下拉框里的内容需要进行两次定位,先定位到下拉框,再定位到下拉框内里的选项。 drop_down.html <html> <body> <select id="ShippingMethod" onc 阅读全文
posted @ 2022-02-26 19:43
齐天_大圣
阅读(120)
评论(0)
推荐(0)
浙公网安备 33010602011771号