2019 年 5月 23 日随笔档案 - 努力的孔子

selenium 教程

摘要： selenium 本身是一套web自动化测试工具，但其经常被用于爬虫，解决一些复杂爬虫的问题。 selenium 用于爬虫时，相当于模拟人操作浏览器。浏览器驱动使用 selenium 需要先安装浏览器驱动，selenium 支持多种浏览器可以看到支持的浏览器类型有十几种，其中常用的有 chr 阅读全文

posted @ 2019-05-23 15:20 努力的孔子阅读(14139) 评论(0) 推荐(1)

Scrapy 教程(八)-分布式爬虫

摘要： scrapy 本身并不是一个分布式框架，而 Scrapy-redis 库使得分布式成为可能； Scrapy-redis 并没有重构框架，而是基于redis数据库重写了框架的某些组件。分布式框架要解决两个问题分配爬取任务：为每个爬虫分配不重复的任务 scrapy-redis 使用 redis 数据阅读全文

posted @ 2019-05-23 14:45 努力的孔子阅读(513) 评论(0) 推荐(0)

redis 教程(一)-基础知识

摘要： redis 简介 redis 是高性能的 key-value 数据库，读的速度是110000次/s,写的速度是81000次/s ，它以内存作为主存储具有以下优点： 1. 支持数据的持久化，将内存中的数据存入磁盘，重启时自动加载 2. 丰富的数据结构，其value可以是多种数据类型，如 list s 阅读全文

posted @ 2019-05-23 14:42 努力的孔子阅读(697) 评论(0) 推荐(0)

2019年5月23日

导航