摘要: 实现分布式爬虫:1、原理:多台主机共享一个爬取队列2、实现:利用redis中集合,重写scrapy的调度器,使用scrapy_redis模块实现3、为什么使用redis 3.1》redis基于内存,快 3.2》redis中有集合数据类型,可以自动去重,存储每个请求的指纹4、最终如何实现 4.1》先写 阅读全文
posted @ 2020-09-15 20:35 爱吃萝卜爱吃兔 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 1. 安装JDK 1.1 JDK安装步骤 下载JDK安装包(下载Linux系统的 .tar.gz 的安装包) https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html 更新Ubuntu源 sudo apt-g 阅读全文
posted @ 2020-09-15 20:30 爱吃萝卜爱吃兔 阅读(174) 评论(0) 推荐(0) 编辑