摘要:
之前使用scrapy实现了一个超级简单的爬虫工具,用于抓取豆瓣上面所有的编程书籍信息(由于不需要爬取整个页面的所以链接,所以不需要用到BFS or DFS,只实现顺序抓取下一页) 这次使用的是python自带的urllib 和urllib2等python模块实现,同样以豆瓣上面的爱情电影信息作... 阅读全文
随笔档案-2014年07月
python实现爬虫(一)--- Scrapy框架抓取豆瓣书籍信息
2014-07-20 04:11 by 凝月流风, 2072 阅读, 收藏,
摘要:
Scrapy是一个用python实现的开源爬虫框架,简单易用,功能强大,只需要在框架的基础上自定义自己的分析规则即可,具体如何新建工程等都在官方文档上面讲解得非常清楚,官方文档tutorial(http://doc.scrapy.org/en/latest/intro/tutorial.html... 阅读全文
浙公网安备 33010602011771号