// // // //

2019年5月23日

摘要: selenium 本身是一套web自动化测试工具,但其经常被用于爬虫,解决一些复杂爬虫的问题。 selenium 用于爬虫时,相当于模拟人操作浏览器。 浏览器驱动 使用 selenium 需要先安装 浏览器驱动,selenium 支持多种浏览器 可以看到支持的浏览器类型有十几种,其中常用的有 chr 阅读全文
posted @ 2019-05-23 15:20 努力的孔子 阅读(14136) 评论(0) 推荐(1)
 
摘要: scrapy 本身并不是一个分布式框架,而 Scrapy-redis 库使得分布式成为可能; Scrapy-redis 并没有重构框架,而是基于redis数据库重写了框架的某些组件。 分布式框架要解决两个问题 分配爬取任务:为每个爬虫分配不重复的任务 scrapy-redis 使用 redis 数据 阅读全文
posted @ 2019-05-23 14:45 努力的孔子 阅读(511) 评论(0) 推荐(0)
 
摘要: redis 简介 redis 是高性能的 key-value 数据库,读的速度是110000次/s,写的速度是81000次/s ,它以内存作为主存储 具有以下优点: 1. 支持数据的持久化,将内存中的数据存入磁盘,重启时自动加载 2. 丰富的数据结构,其value可以是多种数据类型,如 list s 阅读全文
posted @ 2019-05-23 14:42 努力的孔子 阅读(695) 评论(0) 推荐(0)