随笔分类 -  学习scrapy框架

Python分布式爬虫打造搜索引擎 Scrapy精讲
摘要:9-1 分布式爬虫要点 1.分布式的优点 充分利用多机器的宽带加速爬取 充分利用多机的IP加速爬取速度 问:为什么scrapy不支持分布式? 答:在scrapy中scheduler是运行在队列的,而队列是在单机内存中的,服务器上爬虫是无法利用内存的队列做任何处理,所以scrapy不支持分布式。 2. 阅读全文
posted @ 2017-05-11 21:52 今孝 阅读(11178) 评论(0) 推荐(0)
摘要:8-4 selenium集成到scrapy中 其实也没什么好说的直接上代码 这是在middlewares.py中定义的一个class: spider中的代码: 把selenium集成到scrapy中主要改变的就是这两处地方。 以上的在scrapy中嵌入selenium的chrome并不是异步的,所以 阅读全文
posted @ 2017-05-07 21:55 今孝 阅读(3877) 评论(0) 推荐(0)
摘要:8-1 selenium动态网页请求与模拟登录知乎 Ⅰ、介绍selenium 1.什么是selenium:selenium百度百科 2.selenium的构架图: 如果要操作浏览器,还需要一个drive。 Ⅱ、安装selenium 1.可以 pip install selenium。 2.找sele 阅读全文
posted @ 2017-05-04 22:11 今孝 阅读(1855) 评论(0) 推荐(0)
摘要:7-1 爬虫和反爬的对抗过程以及策略 Ⅰ、爬虫和反爬虫基本概念 Ⅱ、反爬虫的目的 Ⅲ、爬虫和反爬虫对抗过程 7-2 scrapy架构源码分析 原理图: 我最早接触scrapy的时候就是看这张原理图,如下图 现在有新的原理图,更加直观,如下图 看了视频讲的源码解析,看一遍根本看不懂,后期还要多看叫上项 阅读全文
posted @ 2017-04-25 22:06 今孝 阅读(11257) 评论(0) 推荐(2)
摘要:通过前几章的2个项目的学习,其实本章的拉钩网项目还是挺容易理解的。 本章主要的还是对CrawlSpider源码的解析,其实我对源码还不是很懂,只是会基本的一些功能而已。 不分小节记录了,直接上知识点,可能比较乱。 1.建立数据表sql语句参考 2.继承CrawlSpider 3.根目录问题 有时候f 阅读全文
posted @ 2017-04-24 20:55 今孝 阅读(2034) 评论(0) 推荐(0)
摘要:相关代码已经修改调试成功 2017-4-24 详情代码请移步我的github:https://github.com/pujinxiao/Lagou_spider 一、说明 1.目标网址:拉勾网 2.实现内容:爬取相应的字段 数据表名 3.思路: 1.首先类似于 https://www.lagou.c 阅读全文
posted @ 2017-04-24 16:10 今孝 阅读(2889) 评论(2) 推荐(0)
摘要:第五章感觉是第四章的练习项目,无非就是多了一个模拟登录。 不分小节记录了,直接上知识点,可能比较乱。 1.常见的httpcode: 2.怎么找post参数? 先找到登录的页面,打开firebug,输入错误的账号和密码,观察post_url变换,从而确定参数。 3.读取本地的文件,生成cookies。 阅读全文
posted @ 2017-04-22 20:53 今孝 阅读(2698) 评论(0) 推荐(0)
摘要:相关代码已经修改调试成功 2017 4 22 一、说明 1. 目标网址 :知乎登入后的首页 2. 实现 :如图字段的爬取 zhihu_question表: zhihu_answer表: 3. 数据 :存放在百度网盘,有需要的可以拿取 链接: "http://pan.baidu.com/s/1qYQ6 阅读全文
posted @ 2017-04-22 16:42 今孝 阅读(3345) 评论(1) 推荐(0)
摘要:相关代码已经修改调试成功 2017 4 21 一、说明 1. 目标网址 : "伯乐在线" 2. 实现 :如图字段的爬取 3. 数据 :存放在百度网盘,有需要的可以拿取 链接: "http://pan.baidu.com/s/1nvdnzpZ" 密码:2j9l 二、运行 运行我就不多说了,直接运行ma 阅读全文
posted @ 2017-04-21 17:14 今孝 阅读(3695) 评论(1) 推荐(2)
摘要:最近在网上学习一门关于scrapy爬虫的课程,觉得还不错,以下是目录还在更新中,我觉得有必要好好的做下笔记,研究研究。 第1章 课程介绍 1-1 python分布式爬虫打造搜索引擎简介 07:23 1-1 python分布式爬虫打造搜索引擎简介 07:23 第2章 windows下搭建开发环境 2- 阅读全文
posted @ 2017-04-20 09:02 今孝 阅读(24952) 评论(6) 推荐(4)
摘要:4 8~9 编写spider爬取jobbole的所有文章 coding: utf 8 import re import scrapy import datetime from scrapy.http import Request from urllib import parse '''如果是py2 阅读全文
posted @ 2017-04-19 16:51 今孝 阅读(4270) 评论(3) 推荐(2)
摘要:4 1 scrapy安装以及目录结构介绍 安装scrapy可以看我另外一篇博文: "Scrapy的安装 Windows、linux、mac等操作平台" ,现在是在虚拟环境中安装可能有不同。 1.创建有python3的虚拟环境 mkvirtualenv python=C:\Users\admin\Ap 阅读全文
posted @ 2017-04-15 10:55 今孝 阅读(4074) 评论(0) 推荐(0)
摘要:技术选型 Scrapy VS requests+beautifulsoup 1. requests和bs都是库,Scrapy是框架。 2. scrapy框架可以加入requests和bs。 3. scrapy是基于twisted,性能是最大的优势。 4. scrapy方便扩展,提供了很多内置的功能。 阅读全文
posted @ 2017-04-14 11:16 今孝 阅读(5725) 评论(0) 推荐(1)

//制作目录