// // // //

2019年5月17日

摘要: Scrapy 使用 Twisted 这个异步框架来处理网络通信,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。 Scrapy 架构 其实之前的教程都有涉及,这里再做个系统介绍 Engine :Scrapy 引擎,即控制中心,负责控制数据流在系统的各个组件中流动,并根据相应动作触发事件; 阅读全文
posted @ 2019-05-17 15:23 努力的孔子 阅读(705) 评论(0) 推荐(0)
 
摘要: 伪装浏览器 服务器可以查看访问的终端,如果不是浏览器,可能会被屏蔽,而且即使你用同一浏览器访问频率过快,也可能被屏蔽,所以需要伪装浏览器反爬。 有以下几种方法 1. 在 settings中添加 user_agent 也可以添加其他header 2. 重写中间件 在原有 middlewares.py 阅读全文
posted @ 2019-05-17 10:19 努力的孔子 阅读(1917) 评论(0) 推荐(0)
 
摘要: scrapy 爬取分页网站的策略 1. 检测当前页是否存在“下一页” 2. 如果存在,把“下一页”的链接交给本方法或者其他方法 3. 如果不存在,结束 图示 示例代码 在解析器中,检测下一页的链接,如果存在,就在解析器中继续爬取,这是一种递归实现分页爬取的策略。 当然你可以用其他方法。 注意,这只是 阅读全文
posted @ 2019-05-17 09:53 努力的孔子 阅读(824) 评论(0) 推荐(0)
 
摘要: scrapy 没有界面,需要命令行来操作。 非常简单,总共也就十四五个命令,分为全局命令和项目命令。 全局命令 在哪都能用 常用命令 不太常用 scrapy bench 用于 benchmark 测试,测试 scrapy 在硬件上的效率。 项目命令 在项目目录才能用 命令行参数 为了增强scrapy 阅读全文
posted @ 2019-05-17 09:44 努力的孔子 阅读(381) 评论(0) 推荐(0)
 
摘要: 有经验的人都知道,解析网站需要尝试,看看得到的数据是不是想要的,那么在scrapy中怎么尝试呢? 调试工具-shell 主要用于编写解析器 命令行进入shell 这个命令其实是个下载器 shell 界面 获取数据 解析命令 response.css('title'),验证获取的数据正确与否 退出sh 阅读全文
posted @ 2019-05-17 09:40 努力的孔子 阅读(1054) 评论(0) 推荐(1)
 
摘要: scrapy 是个爬虫框架,是由python编写的,用法类似 django 框架。 创建工程 在开始爬虫之前,先创建工程 目录结构如下图 文件说明 顶层的scrapy1是工程名 第二层的scrapy1相当于app名 scrapy.cfg 工程的配置信息,目的是使得工程能够正常运行 spiders 用 阅读全文
posted @ 2019-05-17 09:39 努力的孔子 阅读(351) 评论(0) 推荐(0)
 
摘要: 安装 具体请自行百度 依赖库 网上说pip安装会内分泌失调,我试了下还行吧,不过也遇到几个问题 解决方法 解决方法 安装成功 离线下载地址 https://pypi.org/project/Scrapy/#files 实战入门 命令行运行 自动生成 test.json 文件,并存入爬取内容。 这是最 阅读全文
posted @ 2019-05-17 09:36 努力的孔子 阅读(351) 评论(0) 推荐(0)