摘要: 时隔这么久,继续开写。本文系上一篇的补充:爬虫部分技术要点浅析。 本次将主要讨论上次提出的后两个问题:如何处理抽取出来的Url。3、如何处理抽取出来的Url(爬取策略)? 所谓爬取策略,就是网络爬虫从种子网址开始,应该按照怎样的顺序向下爬取。以下是几种典型的爬取策略(既然是浅析,这里只做介绍,想要深入了解请自行查阅资料): (1)深度优先策略 看到这个名词估计多数人立马都会明白,该策略的实现思路采用的是图的深度遍历。事实上当我们通常把网络看做一个图,网络中每个页面看做图中节点,这样在考虑遍历的问题时,很自然的就会使用图的遍历方法(其实也就是树的深度优先遍历)。看下图: ... 阅读全文
posted @ 2013-05-02 00:24 oO脾气不坏Oo 阅读(2517) 评论(6) 推荐(3) 编辑