摘要:
爬虫高性能 [TOC] 一、并发爬取 线程池或进程池+异步调用:提交一个任务后并不会等待任务结束,而是继续下一行代码 二、高性能 上述无论哪种解决方案其实没有解决一个性能相关的问题:IO阻塞,无论是多进程还是多线程,在遇到IO阻塞时都会被操作系统强行剥夺走CPU的执行权限,程序的执行效率因此就降 阅读全文
posted @ 2019-05-08 13:58
凉城旧巷
阅读(242)
评论(0)
推荐(0)
摘要:
见MySQL相关 阅读全文
posted @ 2019-05-08 13:57
凉城旧巷
阅读(172)
评论(0)
推荐(0)
摘要:
存储库——MongoDB [TOC] 一、安装MongoDB 4.0 1、安装 (1)可以去官网下载(我是直接选择msi文件的) https://www.mongodb.com/download center (2)运行文件,可以自定义(custom)安装,注意安装的时候一定要 把勾去掉 “Inst 阅读全文
posted @ 2019-05-08 13:56
凉城旧巷
阅读(411)
评论(0)
推荐(0)
摘要:
见Redis中 阅读全文
posted @ 2019-05-08 13:56
凉城旧巷
阅读(162)
评论(0)
推荐(0)
摘要:
解析库——beautiful soup [TOC] 一、BeautifulSoup简介 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过转换器实现惯用的文档导航、查找、修改文档的方式。Beautiful Soup 3 目前已经停止开发,官网推荐在现 阅读全文
posted @ 2019-05-08 13:54
凉城旧巷
阅读(280)
评论(0)
推荐(0)
摘要:
使用re正则来匹配解析 阅读全文
posted @ 2019-05-08 13:53
凉城旧巷
阅读(201)
评论(0)
推荐(0)
摘要:
滑动验证码破解 [TOC] 一、破解步骤 二、代码实现 python from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import 阅读全文
posted @ 2019-05-08 13:52
凉城旧巷
阅读(553)
评论(0)
推荐(0)
摘要:
selenium请求库 [TOC] 一、什么是selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Sel 阅读全文
posted @ 2019-05-08 13:51
凉城旧巷
阅读(296)
评论(0)
推荐(0)
摘要:
requests请求库 [TOC] 爬虫:爬取、解析、存储 一、请求 1、基本有用的参数 2、请求url编码 3、headers参数——添加请求头中的数据 4、params参数——不用urlencode 5、requests的其他参数 6、get方法与post方法 7、请求的整体流程 二、响应 1、 阅读全文
posted @ 2019-05-08 13:48
凉城旧巷
阅读(692)
评论(0)
推荐(0)