随笔分类 -  python爬虫

python爬虫入门到入狱,爬虫学得好,劳饭管到饱,铁饭碗了解一下。
摘要:移动端数据爬取 安装fiddler 真机安装fiddler证书 修改手机代理(改成电脑ip,端口设置为fiddler的端口) 上述设置完成后我们就可以使用fiddler抓取手机端的数据了 夜神手机模拟器 移动端数据采集-案例一 找到数据接口 # -*- coding: utf-8 -*- impor 阅读全文
posted @ 2020-09-09 23:51 gemoumou 阅读(730) 评论(0) 推荐(0)
摘要:增量式 概念:监测网站数据更新的情况,以便于爬取到最新更新出来的数据 实现核心:去重 实战中去重的方式:记录表 记录表需要记录的是爬取过的相关数据 爬取过的相关信息:url,标题,等唯一标识(我们使用每一部电影详情页的url作为标识) 只需要使用某一组数据,改组数据如果可以作为网站唯一标识信息即可, 阅读全文
posted @ 2020-09-05 03:32 gemoumou 阅读(642) 评论(0) 推荐(0)
摘要:分布式 实现分布式的方式:scrapy+redis(scrapy结合着scrapy-redis组件) 原生的scrapy框架是无法实现分布式的 什么是分布式 需要搭建一个分布式机群,然后让机群中的每一台电脑执行同一组程序,让其对同一组资源进行联合且分布的数据爬取。 因调度器,管道无法被分布式机群共享 阅读全文
posted @ 2020-09-03 23:40 gemoumou 阅读(130) 评论(0) 推荐(0)
摘要:selenium在scrapy中的使用 案例:爬取网易新闻中,国内,国际,军事,航空,无人机这五个板块下的所有新闻数据(标题+内容) 基本使用 创建一个爬虫工程:scrapy startproject proName 进入工程创建一个基于CrawlSpider的爬虫文件 scrapy genspid 阅读全文
posted @ 2020-09-02 01:48 gemoumou 阅读(202) 评论(0) 推荐(0)
摘要:CrawlSpider 是Spider的一个子类,Spider是爬虫文件中的爬虫父类 - 之类的功能一定是对于父类 作用:被作用于专业实现全站数据爬取 将一个页面下的所有页码对应的数据进行爬取 基本使用 创建一个爬虫工程:scrapy startproject proName 进入工程创建一个基于C 阅读全文
posted @ 2020-09-01 22:34 gemoumou 阅读(181) 评论(0) 推荐(0)
摘要:大文件下载 创建一个爬虫工程:scrapy startproject proName 进入工程目录创建爬虫源文件:scrapy genspider spiderName www.xxx.com 执行工程:scrapy crawl spiderName 大文件数据是在管道中请求到的 下载管道类是scr 阅读全文
posted @ 2020-09-01 02:17 gemoumou 阅读(244) 评论(0) 推荐(0)
摘要:请求传参实现的深度爬取 深度爬取:爬取的数据没有在同一张页面中(首页数据+详情页数据) 在scrapy中如果没有请求传参我们是无法进行持久化存储数据的 实现方式: scrapy.Request(url,callback,meta) meta是一个字典,可以将meta传递给callback callb 阅读全文
posted @ 2020-08-31 00:25 gemoumou 阅读(665) 评论(0) 推荐(0)
摘要:scrapy的五大核心组件 引擎(Scrapy) 对整个系统的数据流进行处理, 触发事务(框架核心). 调度器(Scheduler) 用来接受引擎发过来的请求. 由过滤器过滤重复的url并将其压入队列中, 在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由 阅读全文
posted @ 2020-08-31 00:06 gemoumou 阅读(152) 评论(0) 推荐(0)
摘要:scrapy的手动请求发送实现全站数据爬取 yield scrapy.Reques(url,callback) 发起的get请求 callback指定解析函数用于解析数据 yield scrapy.FormRequest(url,callback,formdata)发起的post请求 formdat 阅读全文
posted @ 2020-08-30 21:46 gemoumou 阅读(150) 评论(0) 推荐(0)
摘要:基于管道实现数据备份 将爬取到的数据分别存储到不同的载体 将数据一份存储到本地一份存储到mysql和redis 一个管道类对应一种形式的持久化存储操作,如果将数据存储到不同得载体中就需要使用多个管道类 创建一个爬虫工程:scrapy startproject proName 进入工程目录创建爬虫源文 阅读全文
posted @ 2020-08-30 17:25 gemoumou 阅读(146) 评论(0) 推荐(0)
摘要:scrapy框架 简介:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 环境安装: 阅读全文
posted @ 2020-08-30 00:31 gemoumou 阅读(125) 评论(0) 推荐(0)
摘要:url:https://www.aqistudy.cn/apinew/aqistudyapi.php 分析思路: 原图 现图 1,我们点击查询按钮后发现抓取到了2个一样的数据包,包含请求url和post的请求方式 2,发起多次请求发现 请求参数 d 是动态加密的数据值,我们只要能破解其中一个数据包的 阅读全文
posted @ 2020-08-29 13:42 gemoumou 阅读(2569) 评论(0) 推荐(1)
摘要:流程分析: 使用selenium打开登录页面 对当前selenium打开的这张页面进行截图 对当前图片的局部区域(验证码图片区域)进行截图 这样验证码图片和模拟登录进行所显示的图片一一对应(如果我们对图片发起请求每次请求都不一样无法准确定位及点击) 使用超级鹰识别验证码图片(坐标) 对当前selen 阅读全文
posted @ 2020-08-27 18:05 gemoumou 阅读(882) 评论(0) 推荐(0)
摘要:selenium - 概念: Selenium 是一个 Web 应用的自动化框架 自动化:通过它,我们可以写出自动化程序,像人一样在浏览器里操作web界面。 比如点击界面按钮,在文本框中输入文字 等操作,还能从web界面获取信息。 比如获取12306票务信息,招聘网站职位信息,财经网站股票价格信息 阅读全文
posted @ 2020-08-26 23:18 gemoumou 阅读(292) 评论(0) 推荐(0)
摘要:异步爬虫: 基于线程池 基于单线程+多任务的异步爬虫 线程池 from multiprocessing.dummy import Pool map(callback,alist) 可以使用callback对alist中的每一个元素进行指定形式的异步操作 为了体现效果,我们自己搭建一个web服务 Fl 阅读全文
posted @ 2020-08-25 15:36 gemoumou 阅读(687) 评论(0) 推荐(0)
摘要:创建应用 下载sdk 接入文档链接:https://ai.baidu.com/ai-doc/OCR/3k3h7yeqa#%E9%80%9A%E7%94%A8%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB 解压 新建AipOcr: AipOcr是OCR的Python SDK客 阅读全文
posted @ 2020-08-24 22:23 gemoumou 阅读(506) 评论(0) 推荐(0)
摘要:网址:http://ai.baidu.com/ 百度AI实现的爬虫功能: 图像识别 语音识别/语音合成 自然语言处理 使用流程 点击控制台登录 选择想要的功能 在功能下创建一个app 选择对应的pythonSDK文档进行代码实现 语音合成案例: 首先在百度ai上创建一个应用 选择pythonSDK进 阅读全文
posted @ 2020-08-24 20:29 gemoumou 阅读(734) 评论(0) 推荐(0)
摘要:验证码识别 基于线上的打码平台识别验证码 打码平台有: 1,超级鹰(推荐)http://www.chaojiying.com/ 2,云打码 打码兔等 超级鹰的使用: 1,注册登录购买账户积分 2,创建一个软件ID 创建好后就会生成一个id信息 3,选择超级鹰开发文档 选择对应的语言 点击下载 封装好 阅读全文
posted @ 2020-08-24 14:11 gemoumou 阅读(299) 评论(0) 推荐(0)
摘要:爬虫代理概述 在爬虫中,所谓的代理指的就是代理服务器 代理服务器的作用就是用来转发请求和响应 如果我们的爬虫在短时间内对服务器发起高频的请求,那么服务器会检测到这样的一个异常行为请求,就会将该请求对应设备的ip进行封禁,设备就无法对服务器再次进行请求发送了 使用代理服务器进行信息爬取,可以很好的解决 阅读全文
posted @ 2020-08-24 10:56 gemoumou 阅读(161) 评论(0) 推荐(0)
摘要:Xpaht数据解析 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 因此,对 XPath 的理解是很多高级 X 阅读全文
posted @ 2020-08-23 13:41 gemoumou 阅读(228) 评论(0) 推荐(0)