随笔分类 - 爬虫学习
摘要:Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera,Edge等。这个工具的主要功能包括:测试
阅读全文
摘要:```python # -*- encoding: utf-8 -*- """ @File : 加密与解密.py @Time : 2023-07-23 10:02 @Author : simon @Email : 294168604@qq.com @Software: PyCharm """ fro
阅读全文
摘要:#增量式爬虫 ##概念:监测网站数据更新的情况,只会爬取网站最新更新出来的数据。 ##分析: 指定一个起始url 基于CrawlSpider获取其他页码链接 基于Rule将其他页码链接进行请求 从每一个页码对应的页面源码中解析出每一个电影详情页的URL # -*- coding: utf-8 -*-
阅读全文
摘要:#分布式爬虫 概念:我们需要搭建一个分布式的机群,让其对一组资源进行分布联合爬取。 作用:提升爬取数据的效率 ##如何实现分布式? 安装一个scrapy-redis的组件 原生的scarapy是不可以实现分布式爬虫,必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫。 ###为
阅读全文
摘要:from selenium import webdriver from lxml import etree from time import sleep #实例化一个浏览器对象(传入浏览器的驱动成) bro = webdriver.Chrome(executable_path='./chromedr
阅读全文
摘要:#全站数据爬取的方式 基于Spider:手动请求 基于CrawlSpider #基于CrawlSpider爬取全部数据 创建一个工程 cd XXX 创建爬虫文件(CrawlSpider): scrapy genspider -t crawl xxx www.xxxx.com #链接提取器 LinkE
阅读全文
摘要:#需求 爬取网易新闻中的新闻数据(标题和内容) 1.通过网易新闻的首页解析出五大板块对应的详情页的url(没有动态加载) 2.每一个板块对应的新闻标题都是动态加载出来的(动态加载) 3.通过解析出每一条新闻详情页的url获取详情页的页面源码,解析出新闻内容 #代码实现 ##数据解析 需要获取国内、国
阅读全文
摘要:#修改中间件 import random class MiddleproDownloaderMiddleware(object): # Not all methods need to be defined. If a method is not defined, # scrapy acts as i
阅读全文
摘要:只需要将img的src的属性值进行解析,提交到管道,管道就会对图片的src进行请求发送获取图片的二进制类型的数据,且还会帮我们进行持久化存储 #使用流程: ##数据解析(图片的地址) ##将存储图片地址的item提交到制定的管道类 import scrapy from imgPro.items im
阅读全文
摘要:#前提 如果爬取解析的数据不在同一张页面中。(深度爬取) #实战 使用古诗词网站进行模拟 import scrapy from bossPro.items import BossproItem class BossSpider(scrapy.Spider): name = 'boss' # allo
阅读全文
摘要:#前言 每个网站都有很多页码,将网站中某板块下的全部页码对应的页面数据进行爬取 实现方式有两种: 1、将所有页面的url添加到start_urls列表(不推荐) 2、自行手动进行请求发送(推荐)yield scrapy.Request(url,callback):callback专门用做于数据解析
阅读全文
摘要:基于终端指令 执行成功后数据存储在指定位置 执行存储文件格式不正确时提示报错,提示指定的格式 总结 要求:只可以将parse方法的返回值存储到本地的文本文件中 注意:持久化存储对应的文本文件的类型只可以为:'json', 'jsonlines', 'jl', 'csv', 'xml', 'marsh
阅读全文
摘要:##安装scrapy ###安装命令 pip install wheel pip install twisted pip install pywin32 pip install scrapy ###测试 在终端里录入scrapy指令,没有报错即表示安装成功! ##创建项目 创建工程命令 scrapy
阅读全文
摘要:12306模拟登录 - 超级鹰:http://www.chaojiying.com/about.html - 注册:普通用户 - 登录:普通用户 - 题分查询:充值 - 创建一个软件(id) - 下载示例代码 - 12306模拟登录编码流程: - 使用selenium打开登录页面 - 对当前sele
阅读全文
摘要:from selenium import webdriver from time import sleep #实现无可视化界面 from selenium.webdriver.chrome.options import Options #实现规避检测 from selenium.webdriver
阅读全文

浙公网安备 33010602011771号