第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容,并完成各周作业

4.提供图片或网站显示的学习进度,证明学习的过程。

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

随着机器学习、人工智能在互联网行业中的大热,算法领域程序员薪资的水厂船高,Python逐渐成为一门明星编程语言。Python编程语言以其简洁的语法特点、清晰的代数逻辑,以及海量的第三方库而著称。所谓人生苦短,我用Python,越来越多的人开始投入学习。据说,部分地区的小学生信息课程甚至也加入了Python。实在是大势所趋,势不可挡。

第一周的时候我学习到关于requests库的7种主要方法:
  1、requests.requests( )  
  2、requests.get() 
  3、requests.head( )  
  4、requests.post()
  5、requests.put()  
  6、requests.patch() 
  7、requests.delete( )。


  第二周的时候我学习到新的库—Beautiful soup库,用来格式化爬取下来的网页数据,hmtl标签树的格式化。有益于我们对爬取数据进行直观,简洁的分析。


  第三周的时候我学习到了Beautiful Soup库解析器,有以下几种:

(1)bs4的HTML解析器

(2)lxml的HTML解析器

(3)lxml的XML解析器

(4)html5liblxml的解析器

  第四周的时候我学习到了BeautifulSoup类的基本元素,有以下几种:

(1)Tag:标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾标签

(2)Name:标签的名字, <>...</p>的名字是'p' ,格式: <tag> . name :

(3)Attributes:标签的属性, 字典形式组织,格式: <tag>. attrs

(4)NavigableString: 标签内非属性字符串,<..</>中字符串,格式: <tag>.string

(5)Comment: 标签内字符串的注释部分, 一种特殊的Comment类型

Scrapy爬虫基本使用,更重要的是对股票数据sceapy爬虫实例的过程分析。经过这几周的学习,让我深刻的体会到了网络爬虫给我们带来便利的同时,在没有恰当使用的情况下也可以导致整个网络的崩溃,所以说不管是是什么东西我们都要把其优势发挥到最大,同时尽可能的减少不必要的麻烦。就是要在逐渐学习深入过程中,了解、理解、掌握正则表达式这是非常强大的东西,在很多语言中都会遇到这个东西,对提取想要的内容非常有帮助

posted on 2019-10-31 15:06  陈明彬  阅读(140)  评论(0)    收藏  举报

导航