关于爬虫的学习

最近一直在学习PYTHON语言,想学会一门编程语言,因为PYTHON简单易学,另外功能强大,只有我想不到的,没有PYTHON做不到的,所以就选择了这门编程语言。

学习完它的基础语法后,想进一步的提升,此时同事介绍了两个方法,一个是去GITHUB网站做练习题,一个是去学习爬虫,到网站中爬数据,去数据库中爬数据。

我刚开始时去做习题,但发现有些习题不会做,不如爬虫实战的效果明显。故开始学习爬虫。

学会一门编程语言就是要来解决实际工作中的需求,从这个角度来看,直接学爬虫吧。

学习爬虫也只有一个星期的时间,大体的学习思路与流程简单说明一下吧,方便后来者借鉴(我也不能说自己的方法一定正确,如果有用,能帮助到人,也不枉自己花的这点时间了。)

python爬虫主要用到的几个库,urllib,urllib2,cookielib,re,这是我这周碰到的几个。

首先从最基本的,爬取一个网页的HTML码。

然后难度升级,加入HEADERS的信息,再爬,如:headers中的user——agent信息,data信息,timeout信息,设置代理等。

get 请求,post请求不同的爬取方式。

获取cookie信息,保存cookie信息到文本,从文本中读取保存的cookie信息,保存登录的cookie后,再读取登录后别的页面的信息。

再次,学习正则表达式,用来匹配与筛选信息。PYTHON中的正则表达式的用法,可以系统性的学习下。

最后,当以上的基础打牢后,就进行一些实战了。

在实战中巩固基础,在实战中提高。

每天坚持练习一个小时的代码,一直坚持下去,会达到“悟”的水平的。

 

posted @ 2018-01-06 20:28  知识在于点滴的积累  阅读(332)  评论(0编辑  收藏  举报