随笔分类 -  scrapy

爬虫
摘要:scrapy-redis 分布式爬虫爬取房天下网站所有国内城市的新房和二手房信息 爬取思路 1. 进入 https://www.fang.com/SoufunFamily.htm 页面,解析所有的省份和城市,获取到城市首页链接 2. 通过分析,每个城市的新房都是在首页链接上添加newhouse和ho 阅读全文
posted @ 2020-05-31 09:32 她的开呀 阅读(626) 评论(0) 推荐(0)
摘要:scrapy 使用下载器中间件设置随机请求头 1. 在middlewares.py 中设置下载中间件 import random class UseragentDownloaderMiddleware: # 自定义请求头列表 USER_AGENTS = [ "Mozilla/5.0 (Windows 阅读全文
posted @ 2020-05-30 01:03 她的开呀 阅读(564) 评论(0) 推荐(0)
摘要:Crawl Spider 汽车之家中宝马5系全部图片 yls 2020/5/28 需要使用 LinkExtractor Rule来决定爬虫的具体走向 Crawl Spider介绍 scrapy 爬取文件或者图片简介 *. 为什么选择使用scrapy内置的下载文件的方法: 1. 避免重新下载最近已经下 阅读全文
posted @ 2020-05-29 00:41 她的开呀 阅读(211) 评论(0) 推荐(0)
摘要:Scrapy 实现需要登录简单网站的爬取(以登录人人网为例) 有些网站登录时需要验证码等操作,登录思想都差不多,知识逻辑复杂一些 scrapy的基本使用参考 scrapy 实现人人网登录两种思路 1. 使用 Post请求 + 登录需要的数据(用户名、密码等),代码如下 import scrapy " 阅读全文
posted @ 2020-05-28 00:22 她的开呀 阅读(1089) 评论(0) 推荐(0)
摘要:Crawl Spider 爬取微信小程序社区信息 yls 2020/5/27 需要使用 LinkExtractor Rule来决定爬虫的具体走向 Crawl Spider介绍 1. 创建项目 scrapy startproject wxapp 2. 创建爬虫 cd wxapp scrapy gens 阅读全文
posted @ 2020-05-27 20:33 她的开呀 阅读(359) 评论(0) 推荐(0)
摘要:yls 2020/5/27 安装scrapy之前,先安装 twisted,否则会报错 在 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 中下载与python对应版本的 Twisted ,cp38对应py3.8,自行选择32 or 64位。 找 阅读全文
posted @ 2020-05-27 16:54 她的开呀 阅读(2056) 评论(0) 推荐(1)