第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

 

 

 

 5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

经过四星期嵩天老师对我们讲解的爬虫,让我清晰的认识到自己对于我们所学的专业,我还是多么无知的一个人,他的这门课程就像通往知识海洋里的一所大门的钥匙。

在网络爬虫之实战中,学习了正则表达式,是用来简洁表达一组字符串的表达式。认识了正则表达式的常用操作符。Re库是python的标准库,主要用于字符串匹配。Re库的函数调用有两种方式,一种是直接加上方法名调用,还有一种是先将函数编译成正则表达式对象,再用正则表达式对象调用函数。Re库的Match对象,是一次匹配的结果,包含匹配的很多信息。

在网络爬虫之框架中,认识到爬虫框架是实现爬虫功能的一个软件结构和功能组件集合,爬虫框架是一个半成品,能够帮助用户实现专业文理爬虫,包括了“5+2”结构。学习到了Scrapy命令行的使用。Scrapy与requests比较,Scrapy是网站级爬虫,并发性好,性能较高,重点在于爬虫结构,但入门稍难。

嵩天老师的教学方法是先给学生讲授概念性的知识,再通过实战演练让我们加深记忆。让我留下深刻印象的是学习正则表达式的时候,因为需要记忆知识点有点多,所以我遇见了一些问题。正则表达式语法由字符和操作符组成,我自己写了一些例子,在开始的时候多次碰到关于“/”与“\”写错了的事情,这一方面是自己键盘使用习惯问题,一方面也是自己对这两个符号的理解不够透彻。经过摸索学习我总结了以下内容:“/”是分隔符号,/一般用于正则表达的开始和结束,“\”用于在中途使用,起转义作用;并且如果一个“\”后出现一个字符,并且不是可以转义的字符,那么“\”及其后面的字符不会被转义

posted @ 2019-10-30 13:01  former-boyfriend  阅读(127)  评论(0)    收藏  举报