第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容，并完成各周作业

4.提供图片或网站显示的学习进度，证明学习的过程。

5.写一篇不少于1000字的学习笔记，谈一下学习的体会和收获。

在学习学习这门课之前，因为选修课的缘故我接触过中国大学MOOC这个网址，也通过老师的介绍初步学习到了“python网络爬虫与信息提取”这门课。Python是一个广泛使用的脚本语言，其自带了urllib、urllib2等基本的库，爬虫是最基本的库；在接触“爬虫”这个名词之前，我们对这个概念的理解还是非常模糊的。网络爬虫，也叫网络蜘蛛(Web Spider)，如果把互联网比喻成一个蜘蛛网，Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的，也就是URL。

在第一周的课程中我学习到了Requests库一共有七个主要办法requests.request()、requests.get()、requests.head()、requests.post()、requests.put()requests.patch()requests.delete()，我们要了解它们的意思，例如requests.request()表示的是构造一个请求，支撑下一个方法的基础方法。当然除了了解它的七个方法以外，我们Requests库的七个异常分别表示的意义，如requests.ConnectionError表示的是网络连接错误异常，如DNS查询失败、拒绝连接等。

在后面的学习中，我还回顾并新学到一些专业单词的意思。URL是Internet上描述信息资源的字符串，主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。HTTP协议的URL示例是使用超级文本传输协议HTTP，提供超级文本信息服务的资源。文件的URL用URL表示文件时，file表示，后面要有主机IP地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名，但“/”符号不能省略。BeautifulSoup的导入时用服务器方式用 from bs4 import BeautifulSoup代码进入，常用BeautifulSoup有四个，但是每一个解释器的使用条件不同，BeautifulSoup类的基本元素有五个。

在这几周的课程学习中，让我对网络数据爬取和网页解析的基本能力有了一个详细的梳理，从Requests自动爬取HTML页面自动网络请求提交——Robots.txt网络爬虫排除标准——Beautiful Soup解析HTML页面→Re正则表达式详解提取页面关键信息→scrapy框架。从requests库到scrapy框架的学习，让我意识到了Python的学习是一个漫长的过程，包含了许许多多的知识点，需要掌握的东西也很多，也让我感受到了爬虫在我们的日常生活中的重要性。

通过四周的学习属实是收益良多，也认识到自己自身知识还是太浅薄，还是有些理解不了的地方，接下来也会抓紧学习巩固，跟上老师同学的步伐，注重日积月累。这门课程让我收获颇多。

posted @ 2019-10-30 19:33 颜伟32 阅读(191) 评论(0) 收藏举报

刷新页面返回顶部