第3次作业-MOOC学习笔记:Python网络爬虫与信息提取
1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容,并完成各周作业

4.提供图片或网站显示的学习进度,证明学习的过程。

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。
通过学习课程初识了网络爬虫的感念,网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索。通过了解,现在我们生活在一个大数据时代,个人所需要的一堆数据都散落在网络各处。我们成这些散落在各处的数据为“非结构化数据”。而网络爬虫的作用就是将这些数据拉到一起,使他们变得结构化,使他们变成使用者的“自有数据”。在从“非结构化数据”变为“结构化数据”时就需要用到ETL功能。(ETL:数据抽取、转换、存储)也就是网络连接器向网页发出"请求Request",网页在接收到请求后向网页链接器发出“回应Request”,网页链接器在进行资料的剖析,将剖析后的数据发送至数据中心的过程。
第一周的时候我学习到关于requests库的7种主要方法:
1、requests.requests( )
2、requests.get()
3、requests.head( )
4、requests.post()
5、requests.put()
6、requests.patch()
7、requests.delete( )。
第二周的时候我学习到新的库—Beautiful soup库,用来格式化爬取下来的网页数据,hmtl标签树的格式化。有益于我们对爬取数据进行直观,简洁的分析。
第三周的时候我学习到了Beautiful Soup库解析器,有以下几种:
(1)bs4的HTML解析器
(2)lxml的HTML解析器
(3)lxml的XML解析器
(4)html5liblxml的解析器
第四周的时候我学习到了BeautifulSoup类的基本元素,有以下几种:
(1)Tag:标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾标签
(2)Name:标签的名字, <>...</p>的名字是'p' ,格式: <tag> . name :
(3)Attributes:标签的属性, 字典形式组织,格式: <tag>. attrs
(4)NavigableString: 标签内非属性字符串,<..</>中字符串,格式: <tag>.string
(5)Comment: 标签内字符串的注释部分, 一种特殊的Comment类型
浙公网安备 33010602011771号