爬虫 - 随笔分类 - 打不死的流云

Python爬虫Scrapy框架入门（3）

摘要：往往需要爬取的网页是呈一个树状结构。比如，需要先爬取一个目录，然后再在目录中选择具体的爬取目标。而目录和具体目标之间，网页结构不同，使得我们不能使用相同的爬取策略。从之前的经验来看，我们对scrapy进行操作是从Spider的Parse()函数作为入口。不如在parse()函数中对对目录进行操作，阅读全文

posted @ 2016-07-21 22:20 打不死的流云阅读(444) 评论(0) 推荐(0)

Python爬虫Scrapy框架入门（2）

摘要：本文是跟着大神博客，尝试从网站上爬一堆东西，一堆你懂得的东西附上原创链接： http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是，查看网页元素，填写xpath表达式，获取信息。自动爬取策略是，找到翻页网页元素，获取新链接地址，执行翻页。网页分析部分阅读全文

posted @ 2016-07-20 19:45 打不死的流云阅读(1608) 评论(0) 推荐(0)

Python爬虫Scrapy框架入门（1）

摘要：也许是很少接触python的原因，我觉得是Scrapy框架和以往Java框架很不一样：它真的是个框架。从表层来看，与Java框架引入jar包、配置xml或.property文件不同，Scrapy的模式是先用Scrapy建立项目，然后对项目中部分文件进行编辑，从而达到爬取相应网页的目的。控制台-> 阅读全文

posted @ 2016-07-19 19:45 打不死的流云阅读(227) 评论(0) 推荐(0)

Python爬虫Scrapy框架入门（0）

摘要：想学习爬虫，又想了解python语言，有个python高手推荐我看看scrapy。 scrapy是一个python爬虫框架，据说很灵活，网上介绍该框架的信息很多，此处不再赘述。专心记录我自己遇到的问题以及解决方案吧。给几个链接吧，我是根据这几个东西来尝试学习的： scrapy中文文档（0.24版，阅读全文

posted @ 2016-07-13 16:48 打不死的流云阅读(444) 评论(0) 推荐(0)

打不死的流云

随笔分类 - 爬虫

公告