摘要: 这个问题,其实归根到底是空间与时间的问题。可以想象如果将url全部存在内存中,那么很快内存就会被全部占用。但是如果存在文件中,每次读取或者加入都去要操作文件。这个性能消耗是比较大的。因此,很快我们可以想到计算机中的缓存出现的原因不就是这点嘛。我的设计思路是:通过建立内存、文件、数据库三级存储。这样可以一定程度上取得满意的效果。 说明下我这里设计数据库主要是为分布式网络爬虫用的。就是当网络爬虫发现u... 阅读全文
posted @ 2010-04-19 22:52 小军人 阅读(4408) 评论(4) 推荐(1) 编辑
摘要: 可能是上次的写作风格自己觉得也比较别扭。这样就正儿八经的写写这篇文章。总之,一句话。什么是好文章,难让有一定基础的人看懂看完学到东西的文章就是好文章。我希望能达到这种效果。上篇文章其实做的一个很简单的爬虫原型。采用的就是在单线程阻塞形式(通过函数之间调用)的运行爬虫爬行的过程。其中有些网友在评论中提到更好的方法。这个问题其实是很多系统为提高效率必须得考虑的。我一直觉得,其实项目压根不需要做多。踏踏... 阅读全文
posted @ 2010-04-19 21:48 小军人 阅读(4136) 评论(3) 推荐(0) 编辑
摘要: 大家好,我的中文名字叫小蛛蛛英文名字叫jspider。现在刚刚从“妈妈”肚子出来。动作比较缓慢,不过对外界东西已经有反应了。别说我坏话哈,我听的懂的。刚出来还不知道我到底来到世界是干嘛的,后来查了下资料。才知道: 网络爬虫,又称网络蜘蛛,是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的爬虫程序像蜘蛛(Spider)一样在网络间爬来爬去,因... 阅读全文
posted @ 2010-04-13 11:26 小军人 阅读(5338) 评论(22) 推荐(3) 编辑
摘要: 一、研究所属范围分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置。根据爬虫的分散程度不同,可以把分布式爬行器分成以下两大类:1、基于局域网分布式网... 阅读全文
posted @ 2010-04-11 22:30 小军人 阅读(19446) 评论(15) 推荐(8) 编辑
摘要: 转眼,四年快过去了。。。 这套ppt里面含有两段视频。一套是毕业你打算干吗(用了亡灵序曲作为背景音乐)?一套是我不会怎么办(用了武林外传的一些视频)?这是很多在大学里面摸索的人的疑问。 预览:下载地址:/Files/yueyue_jwfm/程序语言学习.rar 阅读全文
posted @ 2010-04-10 12:42 小军人 阅读(1954) 评论(7) 推荐(3) 编辑
摘要: 摘要北京的交通拥堵情况严重,有专家认为,拥堵的原因很大程度上是因为左转太多,如果取消左转,就可以缓解交通拥堵的情况。通过分析,作者发现左转确实增加了道路交通的压力,但是取消左转后,原本通过左转直接可到达的目的地则需要通过直行一个十字路口→右转→右转→右转→直行一个十字路口才能到达,这样在一定程度上增加了道路中的车流量。为了便于研究,本文对该问题进行了... 阅读全文
posted @ 2010-04-10 11:13 小军人 阅读(2809) 评论(13) 推荐(2) 编辑
摘要: 搜索引擎发展的历史过程与发展现状1搜索引擎的发展的历史1990年以前,没有任何人能搜索互联网。所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage,Peter Deutsch.BillWheelan发明的Archie(Archie FAQ)。一个可以用文件名查找文件的系统,于是便有了Archie.Archie是第一个自动索引互联网上匿名F... 阅读全文
posted @ 2010-04-07 13:13 小军人 阅读(5060) 评论(5) 推荐(4) 编辑
摘要: 如果你体会到每天进步一点点是那么不容易坚持的话那说明你真的做到想每天都进步了。但是很多情况很多人,每天都是浑浑噩噩的过掉了。用小沈阳的话,眼睛一闭一睁一天儿过去了哈 眼睛一闭不睁 一辈子过去了哈。还有很多人是想每天都坚持的,可是往往感觉到去坚持进步是那么的痛苦。去放松自我是那么的轻松。因此这次你又回来到浑浑噩噩混日子的时候。不知道有多少人有这样的感觉,自己做在电脑前捣鼓捣鼓一天,回头一想竟然不知道... 阅读全文
posted @ 2010-04-06 17:20 小军人 阅读(2851) 评论(32) 推荐(10) 编辑
摘要: 最近开始学习Office SharePoint Server 2007 ,果然很强大。不过安装他的时候感觉比较烦。现在这里发布安装指南,为初学moss的朋友们提供点帮助。里面包括了各种必须软件的安装。都以图示展现。下载地址:Moss2007部署图示指南 阅读全文
posted @ 2010-03-29 15:40 小军人 阅读(1312) 评论(2) 推荐(2) 编辑
摘要: 最初看了园子很多人都写过extjs的文章尤其是殷良胜的extjs系列文章。地址:http://blog.chinaunix.net/u2/70983/showart_1853423.html写的不错,但是很少看到有个完整的添加、删除、编辑、显示。51aspx上面有个酒店管理系统http://www.51aspx.com/CV/ExtjsHotelManage/又显得比较大,对于js不熟悉的朋友不太好理解。所以我就将里面的对于用户的表的添加、删除、编辑、显示提取出来。打包给各位初学者学习。不过说实话,extjs调试起来其实不方便。不过无论是界面还是整个框架的设计是比较好看和全面的。至于性能问题, 阅读全文
posted @ 2010-03-27 13:33 小军人 阅读(685) 评论(0) 推荐(0) 编辑
摘要: 一、背景:近十几年以来,互联网技术迅速发展,使互联网逐渐成为人们不可或缺的巨大信息源。准确而快速的从网上找到信息己成为人们迫切的需求。搜索引擎的出现和发展在一定程度上满足人们需要的同时,也面临着更多的挑战。网络搜索技术主要包括信息采集和信息处理两方面。网络爬虫属于信息采集部分,它是一个基于web程序,它从一个初始的网页集出发,遍历Internet,自动采集网络信息。作为搜索引擎的一个关键组成部分,... 阅读全文
posted @ 2010-03-26 10:42 小军人 阅读(9194) 评论(18) 推荐(3) 编辑
摘要: 可以说毕业设计是你大学最后一次任务。我觉得作为一个对学习负责任的同学得会很重视这次机会。想通过毕业设计将整个大学所学所得表达出来。成功是在站在巨人的肩上。如果对文献的查询与运用对毕业设计起一定的作用。ppt下载:/Files/yueyue_jwfm/毕业设计中的文献查询与运用.ppt 节选部分内容: 概要:Ø 文献查阅在毕业设计中的地位与作用Ø 文献查阅的误区Ø 文献... 阅读全文
posted @ 2010-03-26 09:38 小军人 阅读(3110) 评论(5) 推荐(2) 编辑
摘要: 动态生成js文件常常被作为缓存技术的一种被使用。还有就是它是纯客户端技术在各个平台都支持,引用它也比较方便。在asp.net中想动态生成js文件其实很简单。比如要将一个调查问卷在网站中多处被使用。这时候就可以考虑,把它生成一个js文件。利于维护和管理。 protected override void Render(HtmlTextWriter writer) { int titleid =0; S... 阅读全文
posted @ 2010-03-25 16:47 小军人 阅读(2307) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2009-12-04 16:48 小军人 阅读(1776) 评论(14) 推荐(1) 编辑
摘要: 布局预览:代码如下:<html> <head> <title></title> <style type="text/css"> body{ padding:0px; margin-top:2px; margin-right:0px; margin-bottom:0px; margin-left:0px; text-align:center... 阅读全文
posted @ 2009-12-01 22:36 小军人 阅读(691) 评论(1) 推荐(0) 编辑