第3次作业-MOOC学习笔记:Python网络爬虫与信息提取
1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程、

3.学习完成第0周至第4周的课程内容,并完成各周作业

4.提供图片或网站显示的学习进度,证明学习的过程。

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。
这两周使用mooc学习了由北京理工大学开课的Python网络爬虫与信息提取课程,通过学习这门课程让我对python有了新的认识,在本次学习中主要学习了Python第三方库Requests,是一个可以通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法; Python第三方库Beautiful Soup,讲解了从所爬取HTML页面中解析完整Web信息的方法;Python标准库Re,讲解了从所爬取HTML页面中提取关键信息的方法;Python第三方库Scrapy,介绍通过网络爬虫框架构造专业网络爬虫的基本方法。以及围绕网络爬虫的工程伦理及其他技术内容。
首先,我先学习了第0周的知识,对网络爬虫有了一个初步的认识,了解了python语言开发工具的选择。知道了python的第三方库Requests、Beautiful Soup、标准库Re、Scrapy。紧接着我学习了第一周的内容,第一周主要讲的是网络爬虫的规则,主要认识了第三方库Requests,知道了Requests库的7个主要方法。分别是:requests.requests()构造一个请求,支撑一下各方法的基础方法;requests.get()获取HTML网页的主要方法,对应于HTTP的GET;requests.head()获取HRML网页头信息的方法,对应于HTTP的head;requests.post()向HTML网页提交POST请求的方法,对应于HTTP的POST;requests.put()向HTML网页提交PUT请求的方法,对应于HTTP的PUT;requests.patch()向HTML网页提交局部修改请求,对应于HTTP的PATCH;requests.delete()向HTML页面提交删除请求,对应于HTTP的DELETE。
在第二周的内容中,我学习了网络爬虫的提取,主要认识了第三方库Beautiful Soup,知道了信息组织与提取方法。在Beautiful Soup中主要认识5个基本元素Tag、Name、Attributes、NavigableString、Comment,Tag是标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾标签;Name是标签的名字, <>...</p>的名字是'p' ,格式: <tag> . name ;Attributes是标签的属性, 字典形式组织,格式: <tag>. Attrs;NavigableString是标签内非属性字符串,<..</>中字符串,格式: <tag>.string;Comment是标签内字符串的注释部分,一种特殊的Comment类型。
在第三周学习了网络爬虫的实战,认识了Re(正则表达式)库,知道了re的主要功能函数re.search()是在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象;re.match()是在一个字符串的开始位置起匹配正则表达式,返回match对象;re.findall()是搜索字符串;re.split()是将一个字符串按照正则表达式匹配结果进行分割,返回列表类型;re.finditer()是搜索字符串,返回匹配结果的迭代类型;re.sub()是在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串。
在最后几天,我学习了第四周的内容,了解了网络爬虫的框架Python的第三方库Scrapy。知道了Engine是控制所有模块之间的数据流;Downloader是根据请求下载网页;Scheduler是对所有爬取请求进行调度管理。在Scrapy中常用命令是startproject(创建一个新工程);genspider(创建一个爬虫);settings(获得爬虫配置信息);crawl(运行一个爬虫)
通过学习这一门课程,我对Python网络爬虫与信息提取有了新的认识,对python的使用更进一步,接下来的时间里我会继续学习这门课程,提高自己的学习能力。
浙公网安备 33010602011771号