随笔分类 -  Python 爬虫

摘要:1、校花网图片爬取 实现: 1.爬虫文件中将图片名称和地址获取,封装到item中,将item提交给管道 2.定义一个新的管道,在新的管道中进行图片的请求和持久化存储 需要事先配置文件中进行:IMAGES_STORE = './dirName' 创建scrapy项目 scrapy startproje 阅读全文
posted @ 2020-06-24 22:48 自己有自己的调调、 阅读(379) 评论(0) 推荐(0)
摘要:1、持久化存储 爬取一页糗事百科数据 1.1、爬虫文件中进行数据解析 spiderName.py import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' start_urls = ['https://www.qiushibai 阅读全文
posted @ 2020-06-23 22:34 自己有自己的调调、 阅读(400) 评论(0) 推荐(0)
摘要:1、.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。 - Scrapy内容 - 基于框架发起请求 - 数据解析 - 持久化 阅读全文
posted @ 2020-06-22 23:52 自己有自己的调调、 阅读(344) 评论(0) 推荐(0)
摘要:1、案例需求:爬取空气质量数据 URL:https://www.aqistudy.cn/html/city_detail.html 2、分析思路: 1.页面中是有相关的查询条件,指定查询条件后点击查询按钮,就会加载出相关的数据。 查询的条件: 城市名称 查询的时间范围 当点击了查询按钮后,整张页面没 阅读全文
posted @ 2020-06-22 21:33 自己有自己的调调、 阅读(1503) 评论(0) 推荐(0)
摘要:一组连续的操作就是动作链 滑动:鼠标点击长按之后进行偏移 1、示例代码引入 from selenium import webdriver from time import sleep from selenium.webdriver import ActionChains #动作链 # 实例化一个浏览 阅读全文
posted @ 2020-06-21 16:36 自己有自己的调调、 阅读(665) 评论(0) 推荐(0)
摘要:from selenium import webdriver from lxml import etree import time bro = webdriver.Chrome(executable_path='./chromedriver') bro.get('http://125.35.6.84 阅读全文
posted @ 2020-06-21 10:30 自己有自己的调调、 阅读(2140) 评论(0) 推荐(0)
摘要:完整代码 import threading import requests from lxml import etree import os from urllib import request from queue import Queue #案例: #需要将多个页码对应页面中的图片进行爬取。 # 阅读全文
posted @ 2020-06-21 08:33 自己有自己的调调、 阅读(214) 评论(0) 推荐(0)
摘要:异步协程 wait()方法的作用 wait方法的参数只能是任务列表,作用:wait可以将任务列表中的每一个任务对象进行可挂起操作 挂起 可以让当前被挂起的任务对象交出CPU的使用权 实现异步的原理: 当任务列表被wait方法修饰且已经被注册到事件循环中后,loop就会先去执行第一个任务对象, 在执行 阅读全文
posted @ 2020-06-21 01:49 自己有自己的调调、 阅读(395) 评论(0) 推荐(0)
摘要:单线程+多任务异步协程(重点) 协程的基本使用asyncio 1、特殊的函数 一个函数表示一组指定的操作。 import asyncio from time import sleep def get_request(url): print('正在下载:',url) sleep(2) print('下 阅读全文
posted @ 2020-06-18 23:16 自己有自己的调调、 阅读(208) 评论(0) 推荐(0)
摘要:概要: 验证码识别 模拟登录 1、验证码识别 案例需求: 将古诗文网中的验证码进行识别 需要基于一些线上的打码平台进行验证码识别 需要将页面中的验证码图片进行下载,然后将其提交给平台进行识别 常用的打码平台: 超级鹰: 云打码 打码兔、 等等等。。。 import random from lxml 阅读全文
posted @ 2020-06-18 22:11 自己有自己的调调、 阅读(180) 评论(0) 推荐(0)
摘要:概要: cookie反爬处理机制 代理机制 1、cookie反爬处理机制 案例1: 爬取雪球网站中相关的新闻数据 url:https://xueqiu.com/ import requests headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10. 阅读全文
posted @ 2020-06-18 22:07 自己有自己的调调、 阅读(1569) 评论(0) 推荐(0)
摘要:1、xpath解析 1.1、环境的安装: ​ pip install lxml 1.2、实现流程: 1.实例化一个etree类型的对象,且把即将被解析的页面源码内容加载到该对象中 2.调用etree对象中的xpath方法结合着不同形式的xpath表达式进行标签定位和数据提取 1.3、etree对象的 阅读全文
posted @ 2020-06-17 22:22 自己有自己的调调、 阅读(314) 评论(0) 推荐(0)
摘要:1、引入 聚焦爬虫:在通用爬虫的基础之上,可以将一张页面中局部指定的数据进行爬取。可以通过数据解析的方式将一张页面中局部的数据进行解析或者提取。 数据解析方式: 正则 bs4 xpath(重点) pyquery 聚焦爬虫编码流程: 指定url 发起请求 获取响应数据 数据解析 持久化存储 2、数据解 阅读全文
posted @ 2020-06-17 22:18 自己有自己的调调、 阅读(222) 评论(0) 推荐(0)
摘要:1、requests作用: 就是一个基于网络请求的模块,可以用来模拟浏览器发请求。 环境安装: pip install requests requests模块的使用流程: 指定一个字符串形式url 发起请求 获取响应数据 持久化存储 实现一个简易的网页采集器 爬取到任意关键字对应的页面源码数据 简单 阅读全文
posted @ 2020-06-17 00:14 自己有自己的调调、 阅读(2727) 评论(0) 推荐(0)
摘要:1、引入 为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的 我们都知道,当前我们所处的时代是大数据的时代,在大数据时代,要进行数据分析,首先要有数据源,而学习爬虫,可以让我们获取更多的数据源,并且这些数据源可以按我们的目的进行采集 阅读全文
posted @ 2020-06-16 19:10 自己有自己的调调、 阅读(215) 评论(0) 推荐(0)