第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程、

3.学习完成第0周至第4周的课程内容，并完成各周作业

4.提供图片或网站显示的学习进度，证明学习的过程。

5.写一篇不少于1000字的学习笔记，谈一下学习的体会和收获。

这两周使用mooc学习了由北京理工大学开课的Python网络爬虫与信息提取课程，通过学习这门课程让我对python有了新的认识，在本次学习中主要学习了Python第三方库Requests，是一个可以通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法； Python第三方库Beautiful Soup，讲解了从所爬取HTML页面中解析完整Web信息的方法；Python标准库Re，讲解了从所爬取HTML页面中提取关键信息的方法；Python第三方库Scrapy，介绍通过网络爬虫框架构造专业网络爬虫的基本方法。以及围绕网络爬虫的工程伦理及其他技术内容。

首先，我先学习了第0周的知识，对网络爬虫有了一个初步的认识，了解了python语言开发工具的选择。知道了python的第三方库Requests、Beautiful Soup、标准库Re、Scrapy。紧接着我学习了第一周的内容，第一周主要讲的是网络爬虫的规则，主要认识了第三方库Requests，知道了Requests库的7个主要方法。分别是：requests.requests()构造一个请求，支撑一下各方法的基础方法；requests.get()获取HTML网页的主要方法，对应于HTTP的GET；requests.head()获取HRML网页头信息的方法，对应于HTTP的head；requests.post()向HTML网页提交POST请求的方法，对应于HTTP的POST；requests.put()向HTML网页提交PUT请求的方法，对应于HTTP的PUT；requests.patch()向HTML网页提交局部修改请求，对应于HTTP的PATCH；requests.delete()向HTML页面提交删除请求，对应于HTTP的DELETE。

在第二周的内容中，我学习了网络爬虫的提取，主要认识了第三方库Beautiful Soup，知道了信息组织与提取方法。在Beautiful Soup中主要认识5个基本元素Tag、Name、Attributes、NavigableString、Comment，Tag是标签，最基本的信息组织单元,分别用<>和</>标明开头和结尾标签；Name是标签的名字, <>...</p>的名字是'p' ,格式: <tag> . name ；Attributes是标签的属性, 字典形式组织,格式: <tag>. Attrs；NavigableString是标签内非属性字符串，<..</>中字符串,格式: <tag>.string；Comment是标签内字符串的注释部分,一种特殊的Comment类型。

在第三周学习了网络爬虫的实战，认识了Re（正则表达式）库，知道了re的主要功能函数re.search()是在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象；re.match()是在一个字符串的开始位置起匹配正则表达式，返回match对象；re.findall()是搜索字符串；re.split()是将一个字符串按照正则表达式匹配结果进行分割，返回列表类型；re.finditer()是搜索字符串，返回匹配结果的迭代类型；re.sub()是在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串。

在最后几天，我学习了第四周的内容，了解了网络爬虫的框架Python的第三方库Scrapy。知道了Engine是控制所有模块之间的数据流；Downloader是根据请求下载网页；Scheduler是对所有爬取请求进行调度管理。在Scrapy中常用命令是startproject（创建一个新工程）；genspider（创建一个爬虫）；settings（获得爬虫配置信息）；crawl（运行一个爬虫）

通过学习这一门课程，我对Python网络爬虫与信息提取有了新的认识，对python的使用更进一步，接下来的时间里我会继续学习这门课程，提高自己的学习能力。

posted on 2019-10-30 18:58 李顺11 阅读(220) 评论(0) 收藏举报

刷新页面返回顶部

尼克杨

第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

导航

公告