随笔分类 -  分布式网络爬虫关键技术分析与实现系列

摘要:这个问题,其实归根到底是空间与时间的问题。可以想象如果将url全部存在内存中,那么很快内存就会被全部占用。但是如果存在文件中,每次读取或者加入都去要操作文件。这个性能消耗是比较大的。因此,很快我们可以想到计算机中的缓存出现的原因不就是这点嘛。我的设计思路是:通过建立内存、文件、数据库三级存储。这样可以一定程度上取得满意的效果。 说明下我这里设计数据库主要是为分布式网络爬虫用的。就是当网络爬虫发现u... 阅读全文
posted @ 2010-04-19 22:52 小军人 阅读(4409) 评论(4) 推荐(1) 编辑
摘要:可能是上次的写作风格自己觉得也比较别扭。这样就正儿八经的写写这篇文章。总之,一句话。什么是好文章,难让有一定基础的人看懂看完学到东西的文章就是好文章。我希望能达到这种效果。上篇文章其实做的一个很简单的爬虫原型。采用的就是在单线程阻塞形式(通过函数之间调用)的运行爬虫爬行的过程。其中有些网友在评论中提到更好的方法。这个问题其实是很多系统为提高效率必须得考虑的。我一直觉得,其实项目压根不需要做多。踏踏... 阅读全文
posted @ 2010-04-19 21:48 小军人 阅读(4136) 评论(3) 推荐(0) 编辑
摘要:大家好,我的中文名字叫小蛛蛛英文名字叫jspider。现在刚刚从“妈妈”肚子出来。动作比较缓慢,不过对外界东西已经有反应了。别说我坏话哈,我听的懂的。刚出来还不知道我到底来到世界是干嘛的,后来查了下资料。才知道: 网络爬虫,又称网络蜘蛛,是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的爬虫程序像蜘蛛(Spider)一样在网络间爬来爬去,因... 阅读全文
posted @ 2010-04-13 11:26 小军人 阅读(5338) 评论(22) 推荐(3) 编辑
摘要:一、研究所属范围分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置。根据爬虫的分散程度不同,可以把分布式爬行器分成以下两大类:1、基于局域网分布式网... 阅读全文
posted @ 2010-04-11 22:30 小军人 阅读(19468) 评论(15) 推荐(8) 编辑
摘要:搜索引擎发展的历史过程与发展现状1搜索引擎的发展的历史1990年以前,没有任何人能搜索互联网。所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage,Peter Deutsch.BillWheelan发明的Archie(Archie FAQ)。一个可以用文件名查找文件的系统,于是便有了Archie.Archie是第一个自动索引互联网上匿名F... 阅读全文
posted @ 2010-04-07 13:13 小军人 阅读(5067) 评论(5) 推荐(4) 编辑
摘要:一、背景:近十几年以来,互联网技术迅速发展,使互联网逐渐成为人们不可或缺的巨大信息源。准确而快速的从网上找到信息己成为人们迫切的需求。搜索引擎的出现和发展在一定程度上满足人们需要的同时,也面临着更多的挑战。网络搜索技术主要包括信息采集和信息处理两方面。网络爬虫属于信息采集部分,它是一个基于web程序,它从一个初始的网页集出发,遍历Internet,自动采集网络信息。作为搜索引擎的一个关键组成部分,... 阅读全文
posted @ 2010-03-26 10:42 小军人 阅读(9203) 评论(18) 推荐(3) 编辑