2010 年 4月 19 日随笔档案 - 小军人

2010年4月19日

关键技术之单机爬虫的实现（3）---URL存储到哪呢，存内存太占内存，存数据库效能不佳

摘要：这个问题，其实归根到底是空间与时间的问题。可以想象如果将url全部存在内存中，那么很快内存就会被全部占用。但是如果存在文件中，每次读取或者加入都去要操作文件。这个性能消耗是比较大的。因此，很快我们可以想到计算机中的缓存出现的原因不就是这点嘛。我的设计思路是：通过建立内存、文件、数据库三级存储。这样可以一定程度上取得满意的效果。说明下我这里设计数据库主要是为分布式网络爬虫用的。就是当网络爬虫发现u... 阅读全文

posted @ 2010-04-19 22:52 小军人阅读(4435) 评论(4) 推荐(1)

关键技术之单机爬虫的实现（2）---多线程?

摘要：可能是上次的写作风格自己觉得也比较别扭。这样就正儿八经的写写这篇文章。总之，一句话。什么是好文章，难让有一定基础的人看懂看完学到东西的文章就是好文章。我希望能达到这种效果。上篇文章其实做的一个很简单的爬虫原型。采用的就是在单线程阻塞形式（通过函数之间调用）的运行爬虫爬行的过程。其中有些网友在评论中提到更好的方法。这个问题其实是很多系统为提高效率必须得考虑的。我一直觉得，其实项目压根不需要做多。踏踏... 阅读全文

posted @ 2010-04-19 21:48 小军人阅读(4148) 评论(3) 推荐(0)

公告