python爬虫 - 随笔分类 - gemoumou

24-移动端app数据爬取

摘要：移动端数据爬取安装fiddler 真机安装fiddler证书修改手机代理（改成电脑ip，端口设置为fiddler的端口）上述设置完成后我们就可以使用fiddler抓取手机端的数据了夜神手机模拟器移动端数据采集-案例一找到数据接口 # -*- coding: utf-8 -*- impor 阅读全文

posted @ 2020-09-09 23:51 gemoumou 阅读(730) 评论(0) 推荐(0)

23-爬虫之scrapy框架增量式实时监测数据爬取10

摘要：增量式概念：监测网站数据更新的情况，以便于爬取到最新更新出来的数据实现核心：去重实战中去重的方式：记录表记录表需要记录的是爬取过的相关数据爬取过的相关信息：url，标题，等唯一标识（我们使用每一部电影详情页的url作为标识）只需要使用某一组数据，改组数据如果可以作为网站唯一标识信息即可，阅读全文

posted @ 2020-09-05 03:32 gemoumou 阅读(642) 评论(0) 推荐(0)

22-爬虫之scrapy框架分布式09

摘要：分布式实现分布式的方式：scrapy+redis（scrapy结合着scrapy-redis组件）原生的scrapy框架是无法实现分布式的什么是分布式需要搭建一个分布式机群，然后让机群中的每一台电脑执行同一组程序，让其对同一组资源进行联合且分布的数据爬取。因调度器，管道无法被分布式机群共享阅读全文

posted @ 2020-09-03 23:40 gemoumou 阅读(130) 评论(0) 推荐(0)

21-爬虫之scrapy框架selenium的使用08

摘要：selenium在scrapy中的使用案例：爬取网易新闻中，国内，国际，军事，航空，无人机这五个板块下的所有新闻数据（标题+内容）基本使用创建一个爬虫工程：scrapy startproject proName 进入工程创建一个基于CrawlSpider的爬虫文件 scrapy genspid 阅读全文

posted @ 2020-09-02 01:48 gemoumou 阅读(202) 评论(0) 推荐(0)

20-爬虫之scrapy框架CrawlSpider07

摘要：CrawlSpider 是Spider的一个子类，Spider是爬虫文件中的爬虫父类 - 之类的功能一定是对于父类作用：被作用于专业实现全站数据爬取将一个页面下的所有页码对应的数据进行爬取基本使用创建一个爬虫工程：scrapy startproject proName 进入工程创建一个基于C 阅读全文

posted @ 2020-09-01 22:34 gemoumou 阅读(181) 评论(0) 推荐(0)

19-爬虫之scrapy框架大文件下载06

摘要：大文件下载创建一个爬虫工程：scrapy startproject proName 进入工程目录创建爬虫源文件：scrapy genspider spiderName www.xxx.com 执行工程：scrapy crawl spiderName 大文件数据是在管道中请求到的下载管道类是scr 阅读全文

posted @ 2020-09-01 02:17 gemoumou 阅读(244) 评论(0) 推荐(0)

18-爬虫之scrapy框架请求传参实现的深度爬取（全站爬取）05

摘要：请求传参实现的深度爬取深度爬取：爬取的数据没有在同一张页面中（首页数据+详情页数据）在scrapy中如果没有请求传参我们是无法进行持久化存储数据的实现方式： scrapy.Request(url,callback,meta) meta是一个字典，可以将meta传递给callback callb 阅读全文

posted @ 2020-08-31 00:25 gemoumou 阅读(665) 评论(0) 推荐(0)

17-爬虫之scrapy框架五大核心组件工作流程及下载中间件介绍04

摘要：scrapy的五大核心组件引擎(Scrapy) 对整个系统的数据流进行处理, 触发事务(框架核心). 调度器(Scheduler) 用来接受引擎发过来的请求. 由过滤器过滤重复的url并将其压入队列中, 在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由阅读全文

posted @ 2020-08-31 00:06 gemoumou 阅读(152) 评论(0) 推荐(0)

16-爬虫之scrapy框架手动请求发送实现全站数据爬取03

摘要：scrapy的手动请求发送实现全站数据爬取 yield scrapy.Reques(url,callback) 发起的get请求 callback指定解析函数用于解析数据 yield scrapy.FormRequest（url,callback,formdata）发起的post请求 formdat 阅读全文

posted @ 2020-08-30 21:46 gemoumou 阅读(150) 评论(0) 推荐(0)

15-爬虫之scrapy框架基于管道实现数据库备份02

摘要：基于管道实现数据备份将爬取到的数据分别存储到不同的载体将数据一份存储到本地一份存储到mysql和redis 一个管道类对应一种形式的持久化存储操作，如果将数据存储到不同得载体中就需要使用多个管道类创建一个爬虫工程：scrapy startproject proName 进入工程目录创建爬虫源文阅读全文

posted @ 2020-08-30 17:25 gemoumou 阅读(146) 评论(0) 推荐(0)

14-爬虫之scrapy框架的基本使用01

摘要：scrapy框架简介：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。环境安装：阅读全文

posted @ 2020-08-30 00:31 gemoumou 阅读(125) 评论(0) 推荐(0)

13-爬虫之js加密，解密，混淆，逆向破解思路

摘要：url：https://www.aqistudy.cn/apinew/aqistudyapi.php 分析思路：原图现图 1，我们点击查询按钮后发现抓取到了2个一样的数据包，包含请求url和post的请求方式 2，发起多次请求发现请求参数 d 是动态加密的数据值，我们只要能破解其中一个数据包的阅读全文

posted @ 2020-08-29 13:42 gemoumou 阅读(2569) 评论(0) 推荐(1)

12-基于selenium实现12306模拟登录，及京东登录滑动缺口验证模拟登录

摘要：流程分析：使用selenium打开登录页面对当前selenium打开的这张页面进行截图对当前图片的局部区域（验证码图片区域）进行截图这样验证码图片和模拟登录进行所显示的图片一一对应（如果我们对图片发起请求每次请求都不一样无法准确定位及点击）使用超级鹰识别验证码图片（坐标）对当前selen 阅读全文

posted @ 2020-08-27 18:05 gemoumou 阅读(882) 评论(0) 推荐(0)

11-selenium浏览器自动化

摘要：selenium - 概念： Selenium 是一个 Web 应用的自动化框架自动化：通过它，我们可以写出自动化程序，像人一样在浏览器里操作web界面。比如点击界面按钮，在文本框中输入文字等操作，还能从web界面获取信息。比如获取12306票务信息，招聘网站职位信息，财经网站股票价格信息阅读全文

posted @ 2020-08-26 23:18 gemoumou 阅读(292) 评论(0) 推荐(0)

10-异步爬虫（线程池/asyncio协程）实战案例

摘要：异步爬虫：基于线程池基于单线程+多任务的异步爬虫线程池 from multiprocessing.dummy import Pool map（callback，alist）可以使用callback对alist中的每一个元素进行指定形式的异步操作为了体现效果，我们自己搭建一个web服务 Fl 阅读全文

posted @ 2020-08-25 15:36 gemoumou 阅读(687) 评论(0) 推荐(0)

09-百度ai图片识别

摘要：创建应用下载sdk 接入文档链接：https://ai.baidu.com/ai-doc/OCR/3k3h7yeqa#%E9%80%9A%E7%94%A8%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB 解压新建AipOcr： AipOcr是OCR的Python SDK客阅读全文

posted @ 2020-08-24 22:23 gemoumou 阅读(506) 评论(0) 推荐(0)

08-百度ai语音合成

摘要：网址：http://ai.baidu.com/ 百度AI实现的爬虫功能：图像识别语音识别/语音合成自然语言处理使用流程点击控制台登录选择想要的功能在功能下创建一个app 选择对应的pythonSDK文档进行代码实现语音合成案例：首先在百度ai上创建一个应用选择pythonSDK进阅读全文

posted @ 2020-08-24 20:29 gemoumou 阅读(734) 评论(0) 推荐(0)

07-爬虫验证码破解实战

摘要：验证码识别基于线上的打码平台识别验证码打码平台有： 1，超级鹰（推荐）http://www.chaojiying.com/ 2，云打码打码兔等超级鹰的使用： 1，注册登录购买账户积分 2，创建一个软件ID 创建好后就会生成一个id信息 3，选择超级鹰开发文档选择对应的语言点击下载封装好阅读全文

posted @ 2020-08-24 14:11 gemoumou 阅读(299) 评论(0) 推荐(0)

06-代理爬虫实战

摘要：爬虫代理概述在爬虫中，所谓的代理指的就是代理服务器代理服务器的作用就是用来转发请求和响应如果我们的爬虫在短时间内对服务器发起高频的请求，那么服务器会检测到这样的一个异常行为请求，就会将该请求对应设备的ip进行封禁，设备就无法对服务器再次进行请求发送了使用代理服务器进行信息爬取，可以很好的解决阅读全文

posted @ 2020-08-24 10:56 gemoumou 阅读(161) 评论(0) 推荐(0)

05-xpath爬虫数据解析

摘要：Xpaht数据解析 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此，对 XPath 的理解是很多高级 X 阅读全文

posted @ 2020-08-23 13:41 gemoumou 阅读(228) 评论(0) 推荐(0)

gemoumou

随笔分类 - python爬虫

公告