2019 年 5月 17 日随笔档案 - 努力的孔子

Scrapy 教程(七)-架构与中间件

摘要： Scrapy 使用 Twisted 这个异步框架来处理网络通信，架构清晰，并且包含了各种中间件接口，可以灵活的完成各种需求。 Scrapy 架构其实之前的教程都有涉及，这里再做个系统介绍 Engine ：Scrapy 引擎，即控制中心，负责控制数据流在系统的各个组件中流动，并根据相应动作触发事件；阅读全文

posted @ 2019-05-17 15:23 努力的孔子阅读(707) 评论(0) 推荐(0)

Scrapy 教程(六)-反爬

摘要：伪装浏览器服务器可以查看访问的终端，如果不是浏览器，可能会被屏蔽，而且即使你用同一浏览器访问频率过快，也可能被屏蔽，所以需要伪装浏览器反爬。有以下几种方法 1. 在 settings中添加 user_agent 也可以添加其他header 2. 重写中间件在原有 middlewares.py 阅读全文

posted @ 2019-05-17 10:19 努力的孔子阅读(1921) 评论(0) 推荐(0)

Scrapy 教程(五)-分页策略

摘要： scrapy 爬取分页网站的策略 1. 检测当前页是否存在“下一页” 2. 如果存在，把“下一页”的链接交给本方法或者其他方法 3. 如果不存在，结束图示示例代码在解析器中，检测下一页的链接，如果存在，就在解析器中继续爬取，这是一种递归实现分页爬取的策略。当然你可以用其他方法。注意，这只是阅读全文

posted @ 2019-05-17 09:53 努力的孔子阅读(826) 评论(0) 推荐(0)

Scrapy 教程(四)-命令

摘要： scrapy 没有界面，需要命令行来操作。非常简单，总共也就十四五个命令，分为全局命令和项目命令。全局命令在哪都能用常用命令不太常用 scrapy bench 用于 benchmark 测试，测试 scrapy 在硬件上的效率。项目命令在项目目录才能用命令行参数为了增强scrapy 阅读全文

posted @ 2019-05-17 09:44 努力的孔子阅读(385) 评论(0) 推荐(0)

Scrapy 教程(三)-网站解析

摘要：有经验的人都知道，解析网站需要尝试，看看得到的数据是不是想要的，那么在scrapy中怎么尝试呢？调试工具-shell 主要用于编写解析器命令行进入shell 这个命令其实是个下载器 shell 界面获取数据解析命令 response.css('title')，验证获取的数据正确与否退出sh 阅读全文

posted @ 2019-05-17 09:40 努力的孔子阅读(1058) 评论(0) 推荐(1)

Scrapy 教程(二)-操作流程

摘要： scrapy 是个爬虫框架，是由python编写的，用法类似 django 框架。创建工程在开始爬虫之前，先创建工程目录结构如下图文件说明顶层的scrapy1是工程名第二层的scrapy1相当于app名 scrapy.cfg 工程的配置信息，目的是使得工程能够正常运行 spiders 用阅读全文

posted @ 2019-05-17 09:39 努力的孔子阅读(352) 评论(0) 推荐(0)

Scrapy 教程(一)-安装与入门

摘要：安装具体请自行百度依赖库网上说pip安装会内分泌失调，我试了下还行吧，不过也遇到几个问题解决方法解决方法安装成功离线下载地址 https://pypi.org/project/Scrapy/#files 实战入门命令行运行自动生成 test.json 文件，并存入爬取内容。这是最阅读全文

posted @ 2019-05-17 09:36 努力的孔子阅读(354) 评论(0) 推荐(0)

2019年5月17日

导航