第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC

3.学习完成第0周至第4周的课程内容，并完成各周作业

4.提供图片或网站显示的学习进度，证明学习的过程。

5.写一篇不少于1000字的学习笔记，谈一下学习的体会和收获。

老师让我们找到北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程，我学习了其中四周的内容，并完成了课堂测试，收获了许多，Python是一个非常广泛使用的脚本语言，我们现在的学习生活和将来的工作生活都会很多地接触python。其自带了urllib、urllib2等基本的库，而我们看的爬虫是python最基本的库；对于“爬虫”这个名词，我感觉它是非常抽象的，这个词很形象地将它的功能必须成现实的东西，又诠释了它的功能方式。网络爬虫就是根据网页的地址来寻找网页的，也就是URL。通过四周课时的学习，我对它的理解增进了很多。

下面是我的一些读书笔记：

requests库:
requests.requests()构造一个请求，支撑一下各方法的基础方法
requests.get()获取HTML网页的主要方法，对应于HTTP的GET
requests.head()获取HRML网页头信息的方法，对应于HTTP的head
requests.post()向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()向HTML页面提交删除请求，对应于HTTP的DELETE

requests.requests(method,url,**kwargs)
method:请求方式，对应get/put/post等7种
例:r = requests.requests('GET',url,**kwargs)
url:拟获取页面的url链接
**kwargs:控制访问的参数，共12个,分别为params,data,json,header,cookies,auth,files,timeout,proxies,allow_redirects,stream,verify,cert。

BeautifulSoup库:

BeautifulSoup类的基本元素：

Tag：标签，最基本的信息组织单元,分别用<>和</>标明开头和结尾标签

Name：标签的名字, <>...</p>的名字是'p' ,格式: <tag> . name :

Attributes：标签的属性, 字典形式组织,格式: <tag>. attrs

NavigableString：标签内非属性字符串，<..</>中字符串,格式: <tag>.string

Comment：标签内字符串的注释部分, 一种特殊的Comment类型

有时候觉得python和网站的互动还是挺有意思的，但是，有可能是自身的学习程度不够，所以在看实例的时候有些吃力，理解需要花费一点时间。这次的学习让我学到了很多，受益匪浅，，也会对我以后的工作生活会有相对的帮助。

posted @ 2019-10-29 18:07 zzr136 阅读(137) 评论(0) 收藏举报

刷新页面返回顶部