随笔分类 - 网络爬虫
摘要:一、简介 redis数据库是一个基于内存存储的数据库,所以,redis 数据库的访问速度非常快,因此,redis数据库可以做缓存系统,但是,redis做缓存大材小用,主要是用于做分布式集群,可以提高网站的响应速度,redis数据库存储形式是以key-value形式进行存储。 二、redis数据库的特
阅读全文
摘要:1.Scrapy架构图(绿线是数据流向) Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列
阅读全文
摘要:一、Linux上安装scrapyd 1. linux下安装python3 可参考我之前博文:https://www.cnblogs.com/Liu928011/p/14864190.html 2. 安装scrapyd并配置软链接 安装scrapyd:pip3 install scrapyd 配置软链
阅读全文
摘要:什么是分布式爬虫 分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集。单机爬虫就是只在一台计算机上的爬虫。 其实搜索引擎都是爬虫,负责从世界各地的网站上爬取内容,当你搜索关键词时就把相关的内容展示给你,只不过他们那都是灰常大的爬虫,爬的内容量也超乎想象,也就无法再用单机爬虫去实现,而是使用分布
阅读全文
摘要:一、协程的定义 协程又叫微线程,比线程还要小的一个单位;协程不是计算机提供的,是程序员自己创造出来的;协程是一个用户态的上下文切换技术,简单来说,就是通过一个线程去实现代码块(函数)之间的相互切换执行。 二、协程的特点 1. 使用协程时不需要考虑全局变量安全性的问题。 2. 协程必须要在单线程中实现
阅读全文
摘要:项目简介:爬取猫眼电影中所有影人的信息,包括其中文名、英文名、职业、生日、身高、代表作、粉丝数、和累计票房数,并保存至MongoDB数据库中。 项目难点一:粉丝数和累计票房数的CSS字体加密破解。 项目难点二:爬取过程中出现滑块验证码的破解。 项目思路分析:爬取所有影人信息,在这里采用传统的分页式爬
阅读全文
摘要:在使用 Python 做爬虫的时候,我们需要伪装头部信息骗过网站的防爬策略,Python 中的第三方模块 fake_useragent 就很好的解决了这个问题,它将给我们返回一个随机封装了好的头部信息,我们直接使用即可 fake_useragent的安装 pip install fake_usera
阅读全文
摘要:1.什么是生产者消费者模式 生产者消费者模式是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯,而通过阻塞队列来进行通讯,所以生产者生产完数据之后不用等待消费者处理,直接扔给阻塞队列,消费者不找生产者要数据,而是直接从阻塞队列里取,阻塞队列就相当于一个缓冲区,平衡了生产
阅读全文
摘要:1.MongoDB的安装步骤 通过软件安装包傻瓜式安装:下载地址:http://dl.mongodb.org/dl/win32/x86_64 进入到安装目录(和bin目录同级)下,新建data文件夹 进入到data文件夹下,创建db和log目录 进入log目录,创建mongo.log 回到bin同级
阅读全文
摘要:PS:浏览器和电脑的缩放应该调为100%(Windows默认为125%),否则可能会导致获取局部图片时出现误差! from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChai
阅读全文
摘要:此爬虫能够爬取https://www.woyaogexing.com/touxiang/的所有头像图片,只需要修改相关参数即可!(此仅作为学习所用!) class TouXiangSpider(object): def __init__(self, url, page_name): self.pag
阅读全文
摘要:1.Selenium+Chrome的配置 from selenium import webdriver from selenium.webdriver.chrome.options import Options # 实例化对象 option = Options() # 配置无界面谷歌浏览器 # op
阅读全文

浙公网安备 33010602011771号