Scrapy - 随笔分类 - Trunkslisa

scrapy 爬取拉勾网

摘要：一、模板使用 scrapy 在建立爬虫的时候，还可以指定使用的模板进行建立默认建立爬虫文件的命令：可以用 scrapy genspider --list 命令查看scrapy的模板通过crawl模板生成拉钩网爬虫文件二、编写lagou.py import scrapy from scrap 阅读全文

posted @ 2018-10-24 11:53 Trunkslisa 阅读(596) 评论(0) 推荐(0)

scrapy user-agent随机更换

摘要：user-agent大全页面： https://fake-useragent.herokuapp.com/browsers/0.1.6 使用fake-useragent模块模块github地址：https://github.com/hellysmile/fake-useragent 安装方法：使阅读全文

posted @ 2018-10-24 09:55 Trunkslisa 阅读(1100) 评论(0) 推荐(0)

python框架Scrapy中crawlSpider的使用——爬取内容写进MySQL

摘要：一、先在MySQL中创建test数据库，和相应的site数据表二、创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三、进入工程目录，根据爬虫模板生成爬虫文件 #scrapy genspider -l # 查看可用模板 #s 阅读全文

posted @ 2018-10-23 13:52 Trunkslisa 阅读(319) 评论(0) 推荐(0)

scrapy 自定义扩展

摘要：1、新建一个扩展文件，定义一个类，必须包含from_crawler方法： 2、设置settings 3、可以挂钩子的地方阅读全文

posted @ 2018-10-19 09:55 Trunkslisa 阅读(518) 评论(0) 推荐(0)

scrapy pipelines 以及 cookies

摘要：在yeild item以后，会依次通过所有的pipelines 在存在多个pipelines的class的情况的时候，如果不希望交给下一个pipeline进行处理： 1、需要导入 2、在process_item方法中抛出异常如果希望交给下一个pipeline处理的话：另外：如果只希望交给某一个p 阅读全文

posted @ 2018-10-18 17:53 Trunkslisa 阅读(304) 评论(0) 推荐(0)

scrapy 去重策略修改

摘要：1、首先自定义一个‘duplication.py’文件： 2、修改settings文件，添加阅读全文

posted @ 2018-10-18 16:43 Trunkslisa 阅读(773) 评论(0) 推荐(0)

Scrapy 学习记录

摘要：首先，安装virtualenv虚拟环境启动虚拟环境，进入希望保存项目的目录使用下面的命令新建一个scrapy的项目（由于pycharm中没有内置scrapy的项目，只能手动创建）系统返回表示成功 New Scrapy project 'ArticleSpider', using templat 阅读全文

posted @ 2018-08-29 17:48 Trunkslisa 阅读(247) 评论(0) 推荐(0)

Scrapy

摘要：性能相关在编写爬虫时，性能的消耗主要在IO请求中，当单进程单线程模式下请求URL时必然会引起等待，从而使得请求整体变慢。 import requests def fetch_async(url): response = requests.get(url) return response url_l 阅读全文

posted @ 2018-08-22 10:43 Trunkslisa 阅读(232) 评论(0) 推荐(0)

Trunkslisa

随笔分类 - Scrapy

公告