02 2015 档案

scrapy爬虫2--Selector篇

摘要：网页内容的解析可以说是爬虫最主要和最核心的工作，从一堆看似杂乱的代码中获取我们需要的信息，这就是爬虫的本质。python对于网页解析提供了很多的方式，传统的即通过urllib2包获取网页代码，再通过re正则表达式模块自己写规则来获取信息。第三方的包也有，类似pyquery、lxml、Beautifu... 阅读全文

posted @ 2015-02-15 16:36 Chris-Hu 阅读(1056) 评论(0) 推荐(1)

scrapy爬虫1--基础设置篇

摘要：scrapy作为一个用python编写的网络爬虫，继承了python简单易用的特点，目前已经在很多项目中所使用。这里也是因为工作中的需要，把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆。scrapy安装的过程就不在这里详述了，大家安装都会碰到各种不同的问题，主要还是因为pytho... 阅读全文

posted @ 2015-02-12 17:52 Chris-Hu 阅读(1090) 评论(0) 推荐(0)

02 2015 档案

公告