随笔档案「2017年10月8日」：用python写网络爬虫 -从零开始 4 用正则表达式编写链接爬虫 ... - 逍遥游2

2017年10月

摘要：通过之前的学习，我们编写了两个基本的爬虫。但对于一些内容大的网站，我们就需要对其进行跟踪链接，利用正则表达式来确定需要下载的页面。1.正则表达式下载链接，其中 urlparse 模块用来实现相对路径转换成绝对路径，通过一个 import reimport urlparse def link_cr 阅读全文

posted @ 2017-10-08 20:58 逍遥游2 阅读(210) 评论(0) 推荐(0)

用python写网络爬虫 -从零开始 3 编写ID遍历爬虫

摘要：我们在访问网站的时候，发现有些网页ID 是按顺序排列的数字，这个时候我们就可以使用ID遍历的方式来爬取内容。但是局限性在于有些ID数字在10位数左右，那么这样爬取效率就会很低很低！import itertoolsfrom common import downloaddef iteration(): 阅读全文

posted @ 2017-10-08 20:35 逍遥游2 阅读(317) 评论(0) 推荐(0)

用python写网络爬虫 -从零开始 2 编写网站地图爬虫

摘要：以下定义了一个网站地图爬虫，阅读全文

posted @ 2017-10-08 20:30 逍遥游2 阅读(838) 评论(0) 推荐(0)

用python写网络爬虫 -从零开始 1 编写第一个网络爬虫

摘要：本文从最简单的爬虫开始，通过添加检测下载错误，设置用户代理，设置网络代理，逐渐完善爬虫功能。首先说明一下代码的使用方法：在python2.7 环境下，用命令行也可以，用Pycharm编辑也可以。通过定义函数，然后引用函数完成网页抓取例如： download （”HTTP：//www.baid 阅读全文

posted @ 2017-10-08 20:16 逍遥游2 阅读(768) 评论(0) 推荐(0)

ID遍历爬虫

摘要：我们在目标网站打开时发现一些网页ID是连续的数字时，这时候我们就可以用ID遍历的方式进行爬取，但是这样的网站弱点比较少见，特别是有一些ID数字是十多位的数字，这样爬取的时候就会花大量的时间，所以说这样的方法并不是最高效的方法max_errors=5# current number of consec 阅读全文

posted @ 2017-10-08 17:10 逍遥游2 阅读(380) 评论(0) 推荐(0)

python 正则表达式 re findall 返回能匹配的字符串

摘要： python 正则表达式 re findall 方法能够以列表的形式返回能匹配的子串。 re.findall(pattern, string[, flags]): 搜索string，以列表形式返回全部能匹配的子串。先看个简单的代码：import re p = re.compile(r'\d+')pr 阅读全文

posted @ 2017-10-08 15:08 逍遥游2 阅读(22337) 评论(0) 推荐(0)

用python零基础写爬虫--编写第一个网络爬虫 -2 设置用户代理

摘要： 1.设置用户代理默认情况下，urliib2使用python-urllib、2.7 作为用户代理下载网页内容，其中2.7是python的版本号。为避免一些网站禁封这个默认的用户代理，确保下载更加可靠，我们需要控制用户代理的设定。下面代码对download函数设定了一个名称为 “wswp” 的用户代理阅读全文

posted @ 2017-10-08 15:00 逍遥游2 阅读(228) 评论(0) 推荐(0)

公告