• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
颜伟32
博客园    首页    新随笔    联系   管理    订阅  订阅

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容,并完成各周作业

4.提供图片或网站显示的学习进度,证明学习的过程。

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

在学习学习这门课之前,因为选修课的缘故我接触过中国大学MOOC这个网址,也通过老师的介绍初步学习到了“python网络爬虫与信息提取”这门课。Python是一个广泛使用的脚本语言,其自带了urllib、urllib2等基本的库,爬虫是最基本的库;在接触“爬虫”这个名词之前,我们对这个概念的理解还是非常模糊的。网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就是URL。

在第一周的课程中我学习到了Requests库一共有七个主要办法requests.request()、requests.get()、requests.head()、requests.post()、requests.put()requests.patch()requests.delete(),我们要了解它们的意思,例如requests.request()表示的是构造一个请求,支撑下一个方法的基础方法。当然除了了解它的七个方法以外,我们Requests库的七个异常分别表示的意义,如requests.ConnectionError表示的是网络连接错误异常,如DNS查询失败、拒绝连接等。

在后面的学习中,我还回顾并新学到一些专业单词的意思。URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。HTTP协议的URL示例是使用超级文本传输协议HTTP,提供超级文本信息服务的资源。文件的URL用URL表示文件时,file表示,后面要有主机IP地址、文件的存取路 径(即目录)和文件名等信息。有时可以省略目录和文件名,但“/”符号不能省略。BeautifulSoup的导入时用服务器方式用 from bs4 import BeautifulSoup代码进入,常用BeautifulSoup有四个,但是每一个解释器的使用条件不同,BeautifulSoup类的基本元素有五个。

在这几周的课程学习中,让我对网络数据爬取和网页解析的基本能力有了一个详细的梳理,从Requests自动爬取HTML页面自动网络请求提交——Robots.txt网络爬虫排除标准——Beautiful Soup解析HTML页面→Re正则表达式详解提取页面关键信息→scrapy框架。从requests库到scrapy框架的学习,让我意识到了Python的学习是一个漫长的过程,包含了许许多多的知识点,需要掌握的东西也很多,也让我感受到了爬虫在我们的日常生活中的重要性。

 通过四周的学习属实是收益良多,也认识到自己自身知识还是太浅薄,还是有些理解不了的地方,接下来也会抓紧学习巩固,跟上老师同学的步伐,注重日积月累。这门课程让我收获颇多。

 

posted @ 2019-10-30 19:33  颜伟32  阅读(190)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3