第3次作业-MOOC学习笔记:Python网络爬虫与信息提取
1.注册中国大学MOOC
2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程
3.学习完成第0周至第4周的课程内容,并完成各周作业
4.提供图片或网站显示的学习进度,证明学习的过程。


5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。
学习笔记:
通过一周左右的时间,我已经完成了北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程的学习。
这门课程老师讲解的非常仔细,分为了0到4周时间的课程学习,第0周讲解的是网络爬虫之前奏,介绍了有关网络爬虫的含义和python语言开发工具的选择,分别举例提到了Requests、robots.txt、Beautiful Soup、Projects、Re、Scrapy*这几个库,在后面的课程中有分别详细的介绍了这几个库。第1周讲解的是网络爬虫之规则,针对Requests库入门,并一步一步带领大家做了有关后面Requests库网络爬虫的个实战实例,使我对Requests库有了一些深刻的了解和掌握,熟知了requests库7个主要方法有:1.requests.request() 构造一个请求,支撑以下各方法的基础方法 2.requests.get() 获取HTML网页的主要方法,对应于HTTP的GET 3.requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD 4.requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST 5.requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT 6.requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH 7.requests.delete() 向HTML页面提交删除请求,对应于HTTP的DELETE 。
第2周介绍的是网络爬虫之提取,详细介绍了Beautiful Soup,信息组织和提取方法以及介绍了中国大学排名爬虫的实例。Beautiful Soup库,也叫beautifulsoup4 或bs4,它的四种解析器有:bs4的HTML解析器、lxml的HTML解析器、lxml的XML解析器、html5lib的解析器。BeautifulSoup类5种基本元素:1.Tag 标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾 2.Name 标签的名字,<p>…</p>的名字是’p’,格式:<tag>.name 3.Attributes 标签的属性,字典形式组织,格式:<tag>.attrs 4.NavigableString 标签内非属性字符串,<>…</>中字符串,格式:<tag>.string 5.Comment 标签内字符串的注释部分,一种特殊的Comment类型,都分别对这些解析器和基本元素进行了更深层次的介绍讲解和举例子,还有介绍了信息标记的三种形式:xml、json、yaml等。第3周介绍的是网络爬虫之实战,介绍了正则表达式语法由字符和操作符构成和re库主要功能函数,了解了经典正则表达式有:(1)^[A‐Za‐z]+由26个字母组成的字符串[A‐Za‐z0‐9]+由26个字母组成的字符串[A‐Za‐z0‐9]+ 由26个字母和数字组成的字符串(2)^‐?\d+整数形式的字符串[0‐9]∗[1‐9][0‐9]∗整数形式的字符串[0‐9]∗[1‐9][0‐9]∗ 正整数形式的字符串(3)[1‐9]\d{5} 中国境内邮政编码,6位等这些正则表达式,还通过淘宝商品比价定向爬虫和股票数据定向爬虫两个实例的举例讲解,对这周讲解的内容有了更深层次的理解。
第4周是最后一周,它讲解的是网络爬虫之框架,Scrapy爬虫框架。Scrapy是一个快速功能强大的网络爬虫框架,爬虫框架是实现爬虫功能的一个软件结构和功能组件集合,爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。常用命令有:1.startproject 创建一个新工程scrapy startproject <name> [dir] 2.genspider 创建一个爬虫scrapy genspider [options] <name> <domain> 3.settings 获得爬虫配置信息scrapy settings [options] 4.crawl 运行一个爬虫scrapy crawl <spider> 5.list 列出工程中所有爬虫scrapy list 6.shell 启动URL调试命令行scrapy shell [url]。还讲解了它的基本使用,demo.py的一整个过程,以及yield 生成器解释,最后还讲解了股票数据爬虫Scrapy的实例。
通过这几个周的学习,对这门课程也有了一定的了解,虽然对课程所涉及和讲解的各周知识掌握的不是很多很透彻,但我会继续努力,争取把这门课掌握的更加透彻。

浙公网安备 33010602011771号