随笔分类 -  SPIDER

摘要:Spider-Pornhub:https://github.com/Shuranima-Free/Spider 阅读全文
posted @ 2020-08-10 20:19 Shuranima 阅读(953) 评论(0) 推荐(0)
摘要:scrapy-redis和scrapy有什么区别? scrapy是一个通用的爬虫,但是它不支持分布式,scrapy需要怎样才能实现分布式? 1.一个共享的调度器,用与给分布式下的各个机器调度、分配请求队列,包括去重等功能。 2.一个共享的管道,进行各个机器下爬取的数据集中管理。 scrapy-red 阅读全文
posted @ 2020-07-28 22:35 Shuranima 阅读(266) 评论(0) 推荐(0)
摘要:环境的安装: mac or linux: pip install scrapy windows: pip install wheel 下载twisted,下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 安装twisted:pip ins 阅读全文
posted @ 2020-07-27 22:16 Shuranima 阅读(112) 评论(0) 推荐(0)
摘要:Scrapy 是一个爬取网站数据,提取结构性数据而编写的应用框架; Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架; 同步与异步 同步的过程:调用之后处在阻塞的状态,线程处在等待阻塞状态结束后再返回; 异步的过程:调用之后处在非阻塞的状态,这个调用直接返回,不 阅读全文
posted @ 2020-07-23 20:30 Shuranima 阅读(271) 评论(0) 推荐(0)