Python爬虫学习：三、爬虫的基本操作流程

一般我们使用Python爬虫都是希望实现一套完整的功能，如下：

1.爬虫目标数据、信息；

2.将数据或信息存入数据库中；

3.数据展示，即在Web端进行显示，并有自己的分析说明。

这次我先介绍第一个功能中所需要实现的基本操作：

爬虫的基本操作：

导入爬虫所需要的库（如：urllib、urllib2、BeautifulSoup、Scrapy等）
定义目标链接：url="http://www.cnblogs.com/Maple2cat/"
添加data信息：data为字典类型，可以添加name，password等一些登录所需信息
定义headers：有些网站会识别链接是否由浏览器发出的请求，需要定义headers用伪装是浏览器所访问的
如果在第三步中添加了data信息，则需要对data进行转编码：urlencode(data)
请求链接：res=urllib2.Request(url,data,headers)
读取HTML源码：html=res.read()
解析html，一般常用的方法有两种：¹ 正则表达式（根据提取规则截取目标内容）；² BeautifulSoup（根据html标签进行提取，如：<a>……</a>）
存入本地或者数据库

Python正则表达式学习请看这边→|||Python正则表达式学习|||

posted @ 2016-05-16 11:48 Maple2cat 阅读(1152) 评论(2) 收藏举报

刷新页面返回顶部