关于爬虫的学习

最近一直在学习PYTHON语言，想学会一门编程语言，因为PYTHON简单易学，另外功能强大，只有我想不到的，没有PYTHON做不到的，所以就选择了这门编程语言。

学习完它的基础语法后，想进一步的提升，此时同事介绍了两个方法，一个是去GITHUB网站做练习题，一个是去学习爬虫，到网站中爬数据，去数据库中爬数据。

我刚开始时去做习题，但发现有些习题不会做，不如爬虫实战的效果明显。故开始学习爬虫。

学会一门编程语言就是要来解决实际工作中的需求，从这个角度来看，直接学爬虫吧。

学习爬虫也只有一个星期的时间，大体的学习思路与流程简单说明一下吧，方便后来者借鉴（我也不能说自己的方法一定正确，如果有用，能帮助到人，也不枉自己花的这点时间了。）

python爬虫主要用到的几个库，urllib,urllib2,cookielib,re,这是我这周碰到的几个。

首先从最基本的，爬取一个网页的HTML码。

然后难度升级，加入HEADERS的信息，再爬，如：headers中的user——agent信息，data信息，timeout信息，设置代理等。

get 请求，post请求不同的爬取方式。

获取cookie信息，保存cookie信息到文本，从文本中读取保存的cookie信息，保存登录的cookie后，再读取登录后别的页面的信息。

再次，学习正则表达式，用来匹配与筛选信息。PYTHON中的正则表达式的用法，可以系统性的学习下。

最后，当以上的基础打牢后，就进行一些实战了。

在实战中巩固基础，在实战中提高。

每天坚持练习一个小时的代码，一直坚持下去，会达到“悟”的水平的。

posted @ 2018-01-06 20:28 知识在于点滴的积累阅读(357) 评论(0) 收藏举报

刷新页面返回顶部

让学习成为一种生活方式