2018 年 11月 10 日随笔档案 - NAVYSUMMER

2018年11月10日

摘要：一、什么是Selenium selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit 阅读全文

posted @ 2018-11-10 18:07 NAVYSUMMER 阅读(262) 评论(0) 推荐(0)

并发下载

摘要：一、串行爬虫我们之前使用的爬虫方式，都是一个页面接着一个页面下载，也就是使用串行的方式进行爬虫。但是显然这种方式下载的速度是非常的慢的，特别是当我们需要下载大量页面的时候这个问题就会变得更加的突出。所以本节内，就学习如何进行多线程和多进程的并行爬虫。二、多线程爬虫我们在使用多线程进行爬虫的时候阅读全文

posted @ 2018-11-10 16:23 NAVYSUMMER 阅读(212) 评论(0) 推荐(0)

下载缓存

摘要： Python 缓存与持久化缓存算是持久化的一个子集，但是缓存又有自己的过期策略和缓存级别，而持久化基本无过期策略之说。缓存与持久化并不是 Python 爬虫特有的，其他语言都有涉及，所以我们下面既然说要把缓存和持久化放在一起说是建立在持久化缓存的基础上，因为多级缓存策略的内存缓存等不在我们这篇的讨阅读全文

posted @ 2018-11-10 15:55 NAVYSUMMER 阅读(466) 评论(0) 推荐(0)

数据获取的几种方法

摘要：方法一：正则表达式方法二：Beautiful Soup 安装： pip install beautifulsoup4 方发三：Lxml 安装 pip install lxml 阅读全文

posted @ 2018-11-10 11:00 NAVYSUMMER 阅读(1051) 评论(0) 推荐(0)

爬虫陷阱

摘要：目前，我们的爬虫会跟踪所有之前没有访问过的链接。但是，一些网站会动态生成页面内容，这样就会出现无限多的网页。比如，网站有一个在线日历功能，提供了可以访问下个月和下一年的链接，那么下个月的页面中同样会包含访问再下个月的链接，这样页面就会无止境地链接下去，这种情况被称为爬虫陷阱。想要避免陷入爬虫陷阱，阅读全文

posted @ 2018-11-10 10:24 NAVYSUMMER 阅读(403) 评论(0) 推荐(0)

设置代理

摘要：工具： python+urllib2 用法：访问外国网站的代理方案阅读全文

posted @ 2018-11-10 10:09 NAVYSUMMER 阅读(116) 评论(0) 推荐(0)

下载网页

摘要：工具： python+urllib/urllib2/urllib3.... 安装： pip install urllib/urllib2/urllib3 urllib2用法：阅读全文

posted @ 2018-11-10 09:56 NAVYSUMMER 阅读(323) 评论(0) 推荐(0)

获取网站所有者信息

摘要：工具： python+python-whois 安装：用法：阅读全文

posted @ 2018-11-10 09:50 NAVYSUMMER 阅读(380) 评论(0) 推荐(0)

识别网站所用技术

摘要：工具： python+builtwith 安装命令： pip install builtwith 用法：阅读全文

posted @ 2018-11-10 09:47 NAVYSUMMER 阅读(208) 评论(0) 推荐(0)

robots协议

摘要： Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。 Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots E 阅读全文

posted @ 2018-11-10 09:41 NAVYSUMMER 阅读(845) 评论(0) 推荐(0)

NAVYSUMMER

公告