第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容，并完成各周作业

4.提供图片或网站显示的学习进度，证明学习的过程。

5.写一篇不少于1000字的学习笔记，谈一下学习的体会和收获。

通过学习课程初识了网络爬虫的感念，网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，可以自动化浏览网络中的信息，当然浏览信息的时候需要按照我们制定的规则进行，这些规则我们称之为网络爬虫算法。使用Python可以很方便地编写出爬虫程序，进行互联网信息的自动化检索。通过了解，现在我们生活在一个大数据时代，个人所需要的一堆数据都散落在网络各处。我们成这些散落在各处的数据为“非结构化数据”。而网络爬虫的作用就是将这些数据拉到一起，使他们变得结构化，使他们变成使用者的“自有数据”。在从“非结构化数据”变为“结构化数据”时就需要用到ETL功能。（ETL：数据抽取、转换、存储）也就是网络连接器向网页发出"请求Request"，网页在接收到请求后向网页链接器发出“回应Request”，网页链接器在进行资料的剖析，将剖析后的数据发送至数据中心的过程。

第一周的时候我学习到关于requests库的7种主要方法：
1、requests.requests( )
2、requests.get()
3、requests.head( )
4、requests.post()
5、requests.put()
6、requests.patch()
7、requests.delete( )。

第二周的时候我学习到新的库—Beautiful soup库，用来格式化爬取下来的网页数据，hmtl标签树的格式化。有益于我们对爬取数据进行直观，简洁的分析。

第三周的时候我学习到了Beautiful Soup库解析器，有以下几种：

（1）bs4的HTML解析器

（2）lxml的HTML解析器

（3）lxml的XML解析器

（4）html5liblxml的解析器

第四周的时候我学习到了BeautifulSoup类的基本元素，有以下几种：

（1）Tag：标签，最基本的信息组织单元,分别用<>和</>标明开头和结尾标签

（2）Name：标签的名字, <>...</p>的名字是'p' ,格式: <tag> . name :

（3）Attributes：标签的属性, 字典形式组织,格式: <tag>. attrs

（4）NavigableString：标签内非属性字符串，<..</>中字符串,格式: <tag>.string

（5）Comment：标签内字符串的注释部分, 一种特殊的Comment类型

posted @ 2019-10-30 19:23 师硕阅读(211) 评论(0) 收藏举报

刷新页面返回顶部

第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

公告