随笔分类 - 爬虫
摘要:1 Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis
阅读全文
摘要:scrapy总结 1 scrapy项目开发流程 1.1 创建项目命令 scrapy startproject guokespider 1.2 创建一个爬虫 在终端中,先进入到爬虫项目目录下, 然后执行生成爬虫命令,格式scrapy genspider 爬虫名 域名 scrapy genspider
阅读全文
摘要:图片识别引擎 1 tesseract OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。 tesseract下载地址1
阅读全文
摘要:请求响应数据提取 1 响应分类 1.1 结构化数据 1.1.1 json数据 josn格式数据出现比较高频,使用json,re,jsonpath等模块提取数据。 1.1.2 xml数据 xml是一种可扩展标识语言,功能更加专注于存储和传输数据。 xml格式数据低频出现,使用re, lxml等模块提取
阅读全文
摘要:安装driver - phantomjs 镜像: http://npm.taobao.org/mirrors/phantomjs- ChromeDriver 镜像: http://npm.taobao.org/mirrors/chromedriver- geckodrive 镜像: https://
阅读全文
摘要:xpath语法 知识点 掌握元素路径的相关方法 掌握获取获取属性的方法 掌握获取文本的方法 我们将在下面的例子中使用这个 XML 文档。 6.1 选取节点 XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。 使用chro
阅读全文
摘要:基础语法 发送请求 使用 Requests 发送网络请求非常简单。 一开始要导入 Requests 模块: 然后,尝试获取某个网页。本例子中,我们来获取 Github 的公共时间线: 现在,我们有一个名为 r 的 Response 对象。我们可以从这个对象中获取所有我们想要的信息。 Requests
阅读全文

浙公网安备 33010602011771号