python网络爬虫与信息提取学习笔记day1

Day1：

安装python之后，为其配置requests第三方库，并爬取百度主页内容。

语句解释：

r.status_code检测请求的状态码，如果状态码为200，则说明访问成功，否则，则说明访问失败。

注意Response对象的五个属性：

爬取网页的通用代码框架：

# -*- coding: utf-8 -*-

"""

Spyder Editor

 

This is a temporary script file.

"""

import requests

 

def getHTMLText(url):

    try:

        r=requests.get(url,timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return "产生异常"

   

if __name__=="__main__":

    url="http://www.baidu.com"

    print(getHTMLText(url))

HTTP URL的理解

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源

http协议对资源的操作对应requests库的六个操作

post:向URL POST一个字典，自动编码为form(表单);想URL POST一个字符串，自动编码为data

posted @ 2017-08-23 17:19 pppeony 阅读(300) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

pppeony

python网络爬虫与信息提取 学习笔记day1

公告

python网络爬虫与信息提取学习笔记day1