摘要: 本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递,规则下的爬虫在我看来才是真正意义上的爬虫。我们选从逻辑上来看,这种爬虫是如何工作的:我们给定一个起点的url link ,进入页面之后提取所有的ur 链接,我们定义一个规则,根据规则(用正则表达式来限制)来提取我们想要的连接形式,然后爬取这... 阅读全文
posted @ 2015-09-15 16:48 爱吃猫的鱼 阅读(3945) 评论(0) 推荐(1) 编辑