爬虫 - 随笔分类 - kylinlin

Learning Scrapy笔记（三）- Scrapy基础

摘要：摘要：本文介绍了Scrapy的基础爬取流程，也是最重要的部分 Scrapy的爬取流程 Scrapy的爬取流程可以概括为一个方程式：UR2IM，其含义如下图所示 URL：Scrapy的运行就从那个你想要爬取的网站地址开始，当你想要验证用xpath或其他解析器来解析这个网页时，可以使用Scrapy sh 阅读全文

posted @ 2016-04-18 17:32 kylinlin 阅读(5193) 评论(1) 推荐(1)

Learning Scrapy笔记（七）- Scrapy根据Excel文件运行多个爬虫

摘要：摘要：根据Excel文件配置运行多个爬虫很多时候，我们都需要为每一个单独的网站编写一个爬虫，但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同，此时要分别为每一个网站编写一个爬虫就显得徒劳了，其实可以只使用一个spider就爬取这些相似的网站。首先创建一个名为generic的阅读全文

posted @ 2016-04-18 14:40 kylinlin 阅读(3854) 评论(2) 推荐(0)

Scrapy Learning笔记（四）- Scrapy双向爬取

摘要：摘要：介绍了使用Scrapy进行双向爬取（对付分类信息网站）的方法。所谓的双向爬取是指以下这种情况，我要对某个生活分类信息的网站进行数据爬取，譬如要爬取租房信息栏目，我在该栏目的索引页看到如下页面，此时我要爬取该索引页中的每个条目的详细信息（纵向爬取），然后在分页器里跳转到下一页（横向爬取），再爬阅读全文

posted @ 2016-04-15 11:41 kylinlin 阅读(9577) 评论(1) 推荐(2)

杂牌军里的臭皮匠

随笔分类 - 爬虫

公告