上一页 1 ··· 4 5 6 7 8 9 10 11 下一页
摘要: scrapy的五大核心组件 引擎(Scrapy) 对整个系统的数据流进行处理, 触发事务(框架核心). 调度器(Scheduler) 用来接受引擎发过来的请求. 由过滤器过滤重复的url并将其压入队列中, 在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由 阅读全文
posted @ 2020-08-31 00:06 gemoumou 阅读(147) 评论(0) 推荐(0)
摘要: scrapy的手动请求发送实现全站数据爬取 yield scrapy.Reques(url,callback) 发起的get请求 callback指定解析函数用于解析数据 yield scrapy.FormRequest(url,callback,formdata)发起的post请求 formdat 阅读全文
posted @ 2020-08-30 21:46 gemoumou 阅读(144) 评论(0) 推荐(0)
摘要: 基于管道实现数据备份 将爬取到的数据分别存储到不同的载体 将数据一份存储到本地一份存储到mysql和redis 一个管道类对应一种形式的持久化存储操作,如果将数据存储到不同得载体中就需要使用多个管道类 创建一个爬虫工程:scrapy startproject proName 进入工程目录创建爬虫源文 阅读全文
posted @ 2020-08-30 17:25 gemoumou 阅读(140) 评论(0) 推荐(0)
摘要: scrapy框架 简介:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 环境安装: 阅读全文
posted @ 2020-08-30 00:31 gemoumou 阅读(120) 评论(0) 推荐(0)
摘要: url:https://www.aqistudy.cn/apinew/aqistudyapi.php 分析思路: 原图 现图 1,我们点击查询按钮后发现抓取到了2个一样的数据包,包含请求url和post的请求方式 2,发起多次请求发现 请求参数 d 是动态加密的数据值,我们只要能破解其中一个数据包的 阅读全文
posted @ 2020-08-29 13:42 gemoumou 阅读(2493) 评论(0) 推荐(1)
摘要: 流程分析: 使用selenium打开登录页面 对当前selenium打开的这张页面进行截图 对当前图片的局部区域(验证码图片区域)进行截图 这样验证码图片和模拟登录进行所显示的图片一一对应(如果我们对图片发起请求每次请求都不一样无法准确定位及点击) 使用超级鹰识别验证码图片(坐标) 对当前selen 阅读全文
posted @ 2020-08-27 18:05 gemoumou 阅读(875) 评论(0) 推荐(0)
摘要: selenium - 概念: Selenium 是一个 Web 应用的自动化框架 自动化:通过它,我们可以写出自动化程序,像人一样在浏览器里操作web界面。 比如点击界面按钮,在文本框中输入文字 等操作,还能从web界面获取信息。 比如获取12306票务信息,招聘网站职位信息,财经网站股票价格信息 阅读全文
posted @ 2020-08-26 23:18 gemoumou 阅读(265) 评论(0) 推荐(0)
摘要: 异步爬虫: 基于线程池 基于单线程+多任务的异步爬虫 线程池 from multiprocessing.dummy import Pool map(callback,alist) 可以使用callback对alist中的每一个元素进行指定形式的异步操作 为了体现效果,我们自己搭建一个web服务 Fl 阅读全文
posted @ 2020-08-25 15:36 gemoumou 阅读(679) 评论(0) 推荐(0)
摘要: 创建应用 下载sdk 接入文档链接:https://ai.baidu.com/ai-doc/OCR/3k3h7yeqa#%E9%80%9A%E7%94%A8%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB 解压 新建AipOcr: AipOcr是OCR的Python SDK客 阅读全文
posted @ 2020-08-24 22:23 gemoumou 阅读(493) 评论(0) 推荐(0)
摘要: 网址:http://ai.baidu.com/ 百度AI实现的爬虫功能: 图像识别 语音识别/语音合成 自然语言处理 使用流程 点击控制台登录 选择想要的功能 在功能下创建一个app 选择对应的pythonSDK文档进行代码实现 语音合成案例: 首先在百度ai上创建一个应用 选择pythonSDK进 阅读全文
posted @ 2020-08-24 20:29 gemoumou 阅读(715) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8 9 10 11 下一页