requests库和robots.txt标准

requests库(自动爬取HTML页面,自动网络请求提交)

七个主要方法:  requests.request()     request.get()        request.head()           request.post()

         request.put()        request.patch()        request.delete()

---------------------------------------------------------------------------------------------------------------------------

五个重要属性:  r.status_code      r.text       r.encoding        r.apparent_encoding       r.content

----------------------------------------------------------------------------------------------------------------------------

request库的异常:   requests.ConnectionError     requests.HTTPError        requests.URLRequired

           requests.TooManyRedirects     requests.ConnectTimeout      requests.Timeout

-----------------------------------------------------------------------------------------------------------------------------

requests库--------爬取网页,玩转网页-----小规模,数据量小,爬取速度不敏感。

scrapy库----------爬取网站,爬取系列网站----中规模,数据规模较大,爬取速度敏感

定制开发-----------爬取全网,大规模,搜索引擎,爬取速度关键。

------------------------------------------------------------------------------------------------------------------------------

robots.txt标准(网络排重排除标准)

>>>import requests
>>> r = requests.get('http://www.zhidaow.com')  # 发送请求
>>> r.status_code  # 返回码 
200
>>> r.headers['content-type']  # 返回头部信息
'text/html; charset=utf8'
>>> r.encoding  # 编码信息
'utf-8'
>>> r.text  #内容部分(PS,由于编码问题,建议这里使用r.content)
u'<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml"...'
...

 

 

参考博客地址:http://blog.csdn.net/alpha5/article/details/24964009
posted on 2017-03-13 09:20  enet03  阅读(213)  评论(0)    收藏  举报