摘要:
转自:http://www.cnblogs.com/suyuan/archive/2008/04/20/1163016.html花了三个小时,实现了一个简单的爬虫,现在实现的功能是设置抓取深度,设置入口出现的问题是:目前是单线程 在url抓取过程中会出现重复的url 尽管我努力去避免此类问题的发生,但是在我本地调试过程中还是出现了类似的问题我避免url重复的方式 是 根据父页面 来判断 具体看程序代码 整个代码相对比较简单,希望对刚刚开始研究爬虫的新手有所帮助,也希望对我这个代码目前存在的问题 给予纠正/Files/suyuan/CSpider.rar以下内容为转载Spider技术:设计Spi 阅读全文
posted @ 2012-12-20 10:45
呆头龙
阅读(557)
评论(1)
推荐(0)
浙公网安备 33010602011771号