爬虫 - 随笔分类(第5页) - 学霸君主

15.5 Gerapy 分布式管理

摘要：15.5 Gerapy 分布式管理我们可以通过 Scrapyd-Client 将 Scrapy 项目部署到 Scrapyd 上，并且可以通过 Scrapyd API 来控制 Scrapy 的运行。那么，我们是否可以做到更优化？方法是否可以更方便可控？我们重新分析一下当前可以优化的问题。使用 S 阅读全文

posted @ 2020-07-17 12:36 学霸君主阅读(321) 评论(0) 推荐(1)

13.11 Scrapyrt 的使用

摘要：13.11 Scrapyrt 的使用 Scrapyrt 为 Scrapy 提供了一个调度的 HTTP 接口。有了它我们不需要再执行 Scrapy 命令，而是通过请求一个 HTTP 接口即可调度 Scrapy 任务，我们就不需要借助于命令行来启动项目了。如果项目是在远程服务器运行，利用它来启动项目是个阅读全文

posted @ 2020-07-17 12:33 学霸君主阅读(434) 评论(0) 推荐(0)

13.6 Spider Middleware 的用法

摘要：13.6 Spider Middleware 的用法 Spider Middleware 是介入到 Scrapy 的 Spider 处理机制的钩子框架。我们首先来看看它的架构，如图 13-1 所示。当 Downloader 生成 Response 之后，Response 会被发送给 Spider，阅读全文

posted @ 2020-07-17 12:31 学霸君主阅读(391) 评论(0) 推荐(0)

8.2 极验滑动验证码的识别

摘要：8.2 极验滑动验证码的识别上节我们了解了可以直接利用 tesserocr 来识别简单的图形验证码。近几年出现了一些新型验证码，其中比较有代表性的就是极验验证码，它需要拖动拼合滑块才可以完成验证，相对图形验证码来说识别难度上升了几个等级。本节将讲解极验验证码的识别过程。 1. 本节目标我们的目标阅读全文

posted @ 2020-07-17 12:24 学霸君主阅读(1730) 评论(0) 推荐(0)

5.1　文件存储

摘要：5.1　文件存储文件存储形式多种多样，比如可以保存成 TXT 纯文本形式，也可以保存为 JSON 格式、CSV 格式等，本节就来了解一下文本文件的存储方式。 5.1.1　TXT 文本存储将数据保存到 TXT 文本的操作非常简单，而且 TXT 文本几乎兼容任何平台，但是这有个缺点，那就是不利于检索阅读全文

posted @ 2020-07-17 12:19 学霸君主阅读(364) 评论(0) 推荐(0)

4.2 使用 Beautiful Soup

摘要：4.2 使用 Beautiful Soup 前面介绍了正则表达式的相关用法，但是一旦正则表达式写的有问题，得到的可能就不是我们想要的结果了。而且对于一个网页来说，都有一定的特殊结构和层级关系，而且很多节点都有 id 或 class 来作区分，所以借助它们的结构和属性来提取不也可以吗？这一节中，我们阅读全文

posted @ 2020-07-17 12:18 学霸君主阅读(277) 评论(0) 推荐(0)

3.4　抓取猫眼电影排行

摘要：3.4　抓取猫眼电影排行本节中，我们利用 requests 库和正则表达式来抓取猫眼电影 TOP100 的相关内容。requests 比 urllib 使用更加方便，而且目前我们还没有系统学习 HTML 解析库，所以这里就选用正则表达式来作为解析工具。 1. 本节目标本节中，我们要提取出猫眼电影阅读全文

posted @ 2020-07-17 12:17 学霸君主阅读(419) 评论(0) 推荐(0)

2.5 代理的基本原理

摘要：2.5 代理的基本原理我们在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么美好，然而一杯茶的功夫可能就会出现错误，比如 403 Forbidden，这时候打开网页一看，可能会看到 “您的 IP 访问频率太高” 这样的提示。出现这种现象的原因是网站采取了一些反阅读全文

posted @ 2020-07-17 12:16 学霸君主阅读(273) 评论(0) 推荐(0)

第二章爬虫基础

摘要：第二章爬虫基础在写爬虫之前，我们还需要了解一些基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies 的基本原理等。本章中，我们就对这些基础知识做一个简单的总结。阅读全文

posted @ 2020-07-17 12:14 学霸君主阅读(119) 评论(0) 推荐(0)

1.8　爬虫框架的安装

摘要：1.8　爬虫框架的安装我们直接用 requests、Selenium 等库写爬虫，如果爬取量不是太大，速度要求不高，是完全可以满足需求的。但是写多了会发现其内部许多代码和组件是可以复用的，如果我们把这些组件抽离出来，将各个功能模块化，就慢慢会形成一个框架雏形，久而久之，爬虫框架就诞生了。利用框架阅读全文

posted @ 2020-07-17 12:13 学霸君主阅读(435) 评论(0) 推荐(0)

1.4　数据库的安装

摘要：1.4　数据库的安装作为数据存储的重要部分，数据库同样是必不可少的，数据库可以分为关系型数据库和非关系型数据库。关系型数据库如 SQLite、MySQL、Oracle、SQL Server、DB2 等，其数据库是以表的形式存储；非关系型数据库如 MongoDB、Redis，它们的存储形式是键值对阅读全文

posted @ 2020-07-17 12:12 学霸君主阅读(419) 评论(0) 推荐(0)

1.1 Python 3 的安装

摘要：1.1 Python 3 的安装既然要用 Python 3 开发爬虫，那么第一步一定是安装 Python 3。这里会介绍 Windows、Linux 和 Mac 三大平台下的安装过程，相关链接如下：官方网站：http://python.org 下载地址：https://www.python.or 阅读全文

posted @ 2020-07-17 12:09 学霸君主阅读(621) 评论(0) 推荐(0)

序一

摘要：序一人类社会已经进入大数据时代，大数据深刻改变着我们的工作和生活。随着互联网、移动互联网、社交网络等的迅猛发展，各种数量庞大、种类繁多、随时随地产生和更新的大数据，蕴含着前所未有的社会价值和商业价值。大数据成为 21 世纪最为重要的经济资源之一。正如马云所言：未来最大的能源不是石油而是大数据。对大阅读全文

posted @ 2020-07-17 12:07 学霸君主阅读(447) 评论(0) 推荐(0)

Python3 网络爬虫开发实战

摘要：Python3 网络爬虫开发实战本书介绍了如何利用 Python 3 开发网络爬虫。书中首先详细介绍了环境配置过程和爬虫基础知识；然后讨论了 urllib、requests 等请求库，Beautiful Soup、XPath、pyquery 等解析库以及文本和各类数据库的存储方法；接着通过多个案例阅读全文

posted @ 2020-07-17 12:06 学霸君主阅读(1074) 评论(0) 推荐(0)

爬虫笔记

摘要：import requests url = 'https://www.sogou.com/web' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like 阅读全文

posted @ 2020-07-17 11:57 学霸君主阅读(133) 评论(0) 推荐(0)

学霸君主

随笔分类 - 爬虫

公告