摘要: 这个问题,其实归根到底是空间与时间的问题。可以想象如果将url全部存在内存中,那么很快内存就会被全部占用。但是如果存在文件中,每次读取或者加入都去要操作文件。这个性能消耗是比较大的。因此,很快我们可以想到计算机中的缓存出现的原因不就是这点嘛。我的设计思路是:通过建立内存、文件、数据库三级存储。这样可以一定程度上取得满意的效果。 说明下我这里设计数据库主要是为分布式网络爬虫用的。就是当网络爬虫发现u... 阅读全文
posted @ 2010-04-19 22:52 小军人 阅读(4415) 评论(4) 推荐(1) 编辑
摘要: 可能是上次的写作风格自己觉得也比较别扭。这样就正儿八经的写写这篇文章。总之,一句话。什么是好文章,难让有一定基础的人看懂看完学到东西的文章就是好文章。我希望能达到这种效果。上篇文章其实做的一个很简单的爬虫原型。采用的就是在单线程阻塞形式(通过函数之间调用)的运行爬虫爬行的过程。其中有些网友在评论中提到更好的方法。这个问题其实是很多系统为提高效率必须得考虑的。我一直觉得,其实项目压根不需要做多。踏踏... 阅读全文
posted @ 2010-04-19 21:48 小军人 阅读(4136) 评论(3) 推荐(0) 编辑