随笔分类 - 学习scrapy框架
Python分布式爬虫打造搜索引擎 Scrapy精讲
摘要:9-1 分布式爬虫要点 1.分布式的优点 充分利用多机器的宽带加速爬取 充分利用多机的IP加速爬取速度 问:为什么scrapy不支持分布式? 答:在scrapy中scheduler是运行在队列的,而队列是在单机内存中的,服务器上爬虫是无法利用内存的队列做任何处理,所以scrapy不支持分布式。 2.
阅读全文
摘要:8-4 selenium集成到scrapy中 其实也没什么好说的直接上代码 这是在middlewares.py中定义的一个class: spider中的代码: 把selenium集成到scrapy中主要改变的就是这两处地方。 以上的在scrapy中嵌入selenium的chrome并不是异步的,所以
阅读全文
摘要:8-1 selenium动态网页请求与模拟登录知乎 Ⅰ、介绍selenium 1.什么是selenium:selenium百度百科 2.selenium的构架图: 如果要操作浏览器,还需要一个drive。 Ⅱ、安装selenium 1.可以 pip install selenium。 2.找sele
阅读全文
摘要:7-1 爬虫和反爬的对抗过程以及策略 Ⅰ、爬虫和反爬虫基本概念 Ⅱ、反爬虫的目的 Ⅲ、爬虫和反爬虫对抗过程 7-2 scrapy架构源码分析 原理图: 我最早接触scrapy的时候就是看这张原理图,如下图 现在有新的原理图,更加直观,如下图 看了视频讲的源码解析,看一遍根本看不懂,后期还要多看叫上项
阅读全文
摘要:通过前几章的2个项目的学习,其实本章的拉钩网项目还是挺容易理解的。 本章主要的还是对CrawlSpider源码的解析,其实我对源码还不是很懂,只是会基本的一些功能而已。 不分小节记录了,直接上知识点,可能比较乱。 1.建立数据表sql语句参考 2.继承CrawlSpider 3.根目录问题 有时候f
阅读全文
摘要:相关代码已经修改调试成功 2017-4-24 详情代码请移步我的github:https://github.com/pujinxiao/Lagou_spider 一、说明 1.目标网址:拉勾网 2.实现内容:爬取相应的字段 数据表名 3.思路: 1.首先类似于 https://www.lagou.c
阅读全文
摘要:第五章感觉是第四章的练习项目,无非就是多了一个模拟登录。 不分小节记录了,直接上知识点,可能比较乱。 1.常见的httpcode: 2.怎么找post参数? 先找到登录的页面,打开firebug,输入错误的账号和密码,观察post_url变换,从而确定参数。 3.读取本地的文件,生成cookies。
阅读全文
摘要:相关代码已经修改调试成功 2017 4 22 一、说明 1. 目标网址 :知乎登入后的首页 2. 实现 :如图字段的爬取 zhihu_question表: zhihu_answer表: 3. 数据 :存放在百度网盘,有需要的可以拿取 链接: "http://pan.baidu.com/s/1qYQ6
阅读全文
摘要:相关代码已经修改调试成功 2017 4 21 一、说明 1. 目标网址 : "伯乐在线" 2. 实现 :如图字段的爬取 3. 数据 :存放在百度网盘,有需要的可以拿取 链接: "http://pan.baidu.com/s/1nvdnzpZ" 密码:2j9l 二、运行 运行我就不多说了,直接运行ma
阅读全文
摘要:最近在网上学习一门关于scrapy爬虫的课程,觉得还不错,以下是目录还在更新中,我觉得有必要好好的做下笔记,研究研究。 第1章 课程介绍 1-1 python分布式爬虫打造搜索引擎简介 07:23 1-1 python分布式爬虫打造搜索引擎简介 07:23 第2章 windows下搭建开发环境 2-
阅读全文
摘要:4 8~9 编写spider爬取jobbole的所有文章 coding: utf 8 import re import scrapy import datetime from scrapy.http import Request from urllib import parse '''如果是py2
阅读全文
摘要:4 1 scrapy安装以及目录结构介绍 安装scrapy可以看我另外一篇博文: "Scrapy的安装 Windows、linux、mac等操作平台" ,现在是在虚拟环境中安装可能有不同。 1.创建有python3的虚拟环境 mkvirtualenv python=C:\Users\admin\Ap
阅读全文
摘要:技术选型 Scrapy VS requests+beautifulsoup 1. requests和bs都是库,Scrapy是框架。 2. scrapy框架可以加入requests和bs。 3. scrapy是基于twisted,性能是最大的优势。 4. scrapy方便扩展,提供了很多内置的功能。
阅读全文

浙公网安备 33010602011771号