摘要: 主要思路:1、找到列表页。2、找到文章页。3、用一个队列来保存将要爬取的网页,爬取队头的url,如果队列非空,则一直爬取。4、如果是列表页,则抽取里面所有的文章url进队;如果是文章页,则直接爬取至本地。一个博客是起始页url是这样的:http://www.cnblogs.com/joyeecheu... 阅读全文
posted @ 2015-12-08 17:07 wzb的QQ空间 阅读(2517) 评论(2) 推荐(1)