随笔档案「2019年12月」 - King~~~

摘要：https://www.runoob.com/redis/redis-keys.html 阅读全文

posted @ 2019-12-27 14:57 King~~~ 阅读(81) 评论(0) 推荐(0)

摘要：Scrapy-Redis分布式爬虫组件 Scrapy是一个框架，他本身是不支持分布式的。如果我们想要做分布式的爬虫。就需要借助一个组件叫做Scrapy-Redis。这个组件正式利用了Redis可以分布式的功能，继承到Scrapy框架中，使得爬虫可以进行分布式，可以充分的利用资源（多个ip，更多带宽，阅读全文

posted @ 2019-12-25 17:51 King~~~ 阅读(430) 评论(0) 推荐(0)

scrapy的使用-Request

摘要：Request对象在我们写爬虫，爬取一页的数据需要重新发送一个请求的时候调用。这个类需要传递一些参数。其中比较常用的参数有： 1.url 请求的url对象 2.callback 在下载器下载完相应的数据后执行的回调函数 3.method 请求的方式，默认为GET方法，可以设置为其他方法 4.meta 阅读全文

posted @ 2019-12-18 22:00 King~~~ 阅读(871) 评论(0) 推荐(1)

scrapy的使用-scrapy shell

摘要：进入该目录下执行scrapy shell 文件，在命令行可执行该文件中链接的xpath语法，和BeautifulSoup语法。阅读全文

posted @ 2019-12-18 20:29 King~~~ 阅读(351) 评论(0) 推荐(0)

scrapy的使用-LinkExtractor

摘要：背景：在爬取网站信息是需要获取特定标签下的某些内容，就需要获取这些标签下的链接，如果获取每一个，在通过这个获取它下面的信息，这样效率会很低，时间复杂度O(n^2),但如果先获取链接，再获取内容，则时间复杂度为O(n)+O(n),每次执行完深度为2，则时间复杂度为O(n).效率会明显提高，非常适合整阅读全文

posted @ 2019-12-17 23:39 King~~~ 阅读(466) 评论(0) 推荐(0)

scrapy的使用-Pipelines

摘要：# 简单的对item操作方式 # import json class QsbkPipeline(object): def __init__(self): self.fp=open('qsbk1.json','w',encoding="utf-8") def open_spider(self,spid 阅读全文

posted @ 2019-12-17 22:31 King~~~ 阅读(240) 评论(0) 推荐(0)

scrapy工作流程

摘要：第一步：首先Spiders(爬虫)将需要发送请求的url(request)经过ScrapyEngine(引擎)交给Scheduler(调度器). 第二步：Scheduler(排序，入队)处理后，经过ScrapyEngine,DownloaderMiddlewares(可选，主要有User_Agent 阅读全文

posted @ 2019-12-15 21:53 King~~~ 阅读(1614) 评论(0) 推荐(0)

美好,即将开始

fighting~~

12 2019 档案

公告