02 2015 档案

摘要:网页内容的解析可以说是爬虫最主要和最核心的工作,从一堆看似杂乱的代码中获取我们需要的信息,这就是爬虫的本质。python对于网页解析提供了很多的方式,传统的即通过urllib2包获取网页代码,再通过re正则表达式模块自己写规则来获取信息。第三方的包也有,类似pyquery、lxml、Beautifu... 阅读全文
posted @ 2015-02-15 16:36 Chris-Hu 阅读(1056) 评论(0) 推荐(1)
摘要:scrapy作为一个用python编写的网络爬虫,继承了python简单易用的特点,目前已经在很多项目中所使用。这里也是因为工作中的需要,把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆。scrapy安装的过程就不在这里详述了,大家安装都会碰到各种不同的问题,主要还是因为pytho... 阅读全文
posted @ 2015-02-12 17:52 Chris-Hu 阅读(1090) 评论(0) 推荐(0)