2013 年 5月 2 日随笔档案 - oO脾气不坏Oo

2013年5月2日

摘要：时隔这么久，继续开写。本文系上一篇的补充：爬虫部分技术要点浅析。本次将主要讨论上次提出的后两个问题：如何处理抽取出来的Url。3、如何处理抽取出来的Url（爬取策略）？所谓爬取策略，就是网络爬虫从种子网址开始，应该按照怎样的顺序向下爬取。以下是几种典型的爬取策略（既然是浅析，这里只做介绍，想要深入了解请自行查阅资料）：（1）深度优先策略看到这个名词估计多数人立马都会明白，该策略的实现思路采用的是图的深度遍历。事实上当我们通常把网络看做一个图，网络中每个页面看做图中节点，这样在考虑遍历的问题时，很自然的就会使用图的遍历方法（其实也就是树的深度优先遍历）。看下图： ... 阅读全文

posted @ 2013-05-02 00:24 oO脾气不坏Oo 阅读(2546) 评论(6) 推荐(3)

oO脾气不坏Oo

公告