随笔分类 -  other

nutch 0.9二次开发--内存溢出(转)
摘要:原文地址:http://blog.chinaunix.net/u2/73798/showart_1731875.html在用nutch抓取网页的时候,设置了10层,运行5个多小时之后,系统提示内存溢出异常:java.lang.OutOfMemoryError: Java heap spacefetcher caught:java.lang.OutOfMemoryError: Java heap s... 阅读全文
posted @ 2010-03-05 09:27 Myhsg 阅读(657) 评论(0) 推荐(0)
全文检索基本原理(转)
摘要:本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/forfuture1978/archive/2009/10/22/4711308.aspx一、总论根据http://lucene.apache.org/java/docs/index.html 定义:Lucene 是一个高效的,基于Java 的全文检索库。 所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什... 阅读全文
posted @ 2010-03-01 21:04 Myhsg 阅读(321) 评论(0) 推荐(0)
向量空间模型(VSM) (转)
摘要:向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即 。 在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有文档的数目,ni为含有词条ti的文档数... 阅读全文
posted @ 2010-01-07 14:24 Myhsg 阅读(444) 评论(0) 推荐(0)
改进向量空间模型[转]
摘要:直接使用词的个数在比较词数很多和词数很少的文档时存在着问题。例如文档I中含有10000个词,而词a出现了10次;文档II中含有100个词,而a出现了5次。这样在相似度计算时,文档I中a对最后结果的影响比文档II中的a要大。这显然是不合理的,因为a只点文档I的0.1%而却占文档II的5%。为了解决这类问题,我们引入词频(TF)和反词频(IDF)两个概念。其中TF = f/m,其中f表示当前词在当前文... 阅读全文
posted @ 2010-01-07 10:59 Myhsg 阅读(257) 评论(0) 推荐(0)
向量空间模型(转)
摘要:一: 不同区域的权重计算1. 对出现在文档的不通区域的term赋予不同的权值,例如title,author,body等,这样需要在倒排表中记录term每一次出现的位置2. 对不同的区域赋予不通的权值,Gi, 使得 Sum(Gi) = 13. 对于这个Gi的值,可以通过机器学习的方法来确定:给定一个文档集合和query,以及query与文档之间的相似性,然后假定一个表达式,采用这个样本来计算各种系数... 阅读全文
posted @ 2010-01-07 10:54 Myhsg 阅读(334) 评论(0) 推荐(0)
Nutch下载后的文件目录说明
摘要:Nutch的文件目录所包含的内容: crawldb目录下面存放下载的URL,以及下载的日期,用来页面更新检查时间。linkdb目录存放URL的关联关系,是下载完成后分析时创建的,通过这个关联关系可以实现类似google的pagerank功能。segments目录存储抓取的页面,下面子目录的个数与获取页面的层数有关系。 内含有6个子目录 content:下载页面的内容 crawl_fetch:... 阅读全文
posted @ 2010-01-03 20:47 Myhsg 阅读(722) 评论(0) 推荐(0)
nutch环境配置(转)
摘要:nutch环境配置备忘:1、Cygwin安装我使用的是Cygwin本地安装版,local install,并把所有组件都设为installed即可。2、解压nutch将NUTCH-0.9解压后复制到HOME/Administrator下,或者在Cygwin下使用gunzip命令皆可。3、安装JDK可能是我的系统最近不正常吧,我的JDK必须安装在nutch目录下才能找到(正确设置了环境变量,可是只要... 阅读全文
posted @ 2010-01-01 11:49 Myhsg 阅读(1001) 评论(0) 推荐(0)
告别2009,2010一切从头开始
摘要:告别2009,2010一切从头开始!!! 阅读全文
posted @ 2010-01-01 10:17 Myhsg 阅读(196) 评论(0) 推荐(0)
nutch工程源码导入Eclipse过程(转)
摘要:测试环境Nutch release 0.9Eclipse 3.3 - aka EuropaJava 1.6开始之前Setting up Nutch to run into Eclipse can be tricky, and most of the time you are much faster if you edit Nutch in Eclipse but run the scripts f... 阅读全文
posted @ 2010-01-01 10:16 Myhsg 阅读(1029) 评论(0) 推荐(0)
分类方法 (转)
摘要:数据仓库,数据库或者其它信息库中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识。分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值。 分类技术在很多领域都有应用,例如可以通过客户分类构... 阅读全文
posted @ 2009-12-18 22:21 Myhsg 阅读(478) 评论(0) 推荐(0)
larbin中URL的去重-Bloom Filter算法 (转)
摘要:原文地址:http://hi.baidu.com/searchchina/blog/item/5271975975915b2f2934f07a.html读larbin的源码曾经赞叹它去重方法的设计,虽然有一定的冲突率,但是效率极高,占用的内存非常小,按照larbin的配置,下载6400万网页,使用的内存只有8M。算法特点总结如下: 1、使用hash; 2、将每个url映射到一位; 3、超找的时间是... 阅读全文
posted @ 2009-06-30 20:43 Myhsg 阅读(791) 评论(0) 推荐(0)
软件工程文档编写标准包括哪些内容(转)
摘要:原文地址:http://hi.baidu.com/diggerping/blog/item/af2197d32a9e93d9a8ec9ad6.html在项目开发过程中,应该按要求编写好十三种文档,文档编制要求具有针对性、精确性、清晰性、完整性、灵活性、可追溯性。   ◇ 可行性分析报告:说明该软件开发项目的实现在技术上、经济上和社会因素上的可行性,评述为了合理地达到开发目标可供选择的各... 阅读全文
posted @ 2009-06-22 08:44 Myhsg 阅读(2018) 评论(1) 推荐(0)
我们三十以后才明白 (转)(到我真正30岁的那天,会怎么样)
摘要:原文地址:http://www.cnblogs.com/jv9/archive/2009/06/17/1504718.html作为一个30岁的程序员,时常会回忆自己的过去,我也不例外,虽然我身在海外,我相信还是会有很多国内的IT朋友和我的想法相同: 当我们懂得珍惜时光的时候,已经发现自己不再年轻. 三十岁,才慢慢的明白.男女三十而立,三十岁应该是人生的转折点,它不是青春韶华的终结,而是生命的第二起... 阅读全文
posted @ 2009-06-17 17:42 Myhsg 阅读(339) 评论(0) 推荐(0)
3G三大标准
摘要:国际电信联盟(ITU)确定3G通信的三大主流无线接口标准分别是W-CDMA(宽频分码多重存取)、CDMA2000(多载波分复用扩频调制)和TDS-CDMA(时分同步码分多址接入)。其中W-CDMA标准主要起源于欧洲和日本的早期第三代无线研究活动,该系统在现有的GSM网络上进行使用,对于系统提供商而言可以较轻易地过渡,该标准的主要支持者有欧洲、日本、韩国。去年底,美国的AT&T移 动业务分公... 阅读全文
posted @ 2009-05-14 19:32 Myhsg 阅读(1497) 评论(0) 推荐(0)
超键 候选键 主键
摘要:1. 超键(Super Key):在关系中能惟一标识元组的属性集称为关系模式的超键。2. 候选键(Candidate Key):不含有多余属性的超键称为候选键。也就是在候选键中,若要再删除属性,就不是键了。3. 主键:(Primary Key):用户选作元组标识的一个侯选键称为主键。一般,如不加说明,则键是指主键。 阅读全文
posted @ 2009-05-07 09:57 Myhsg 阅读(348) 评论(0) 推荐(0)
数据库范式详细解释(转)
摘要:关系数据库设计之时是要遵守一定的规则的。尤其是数据库设计范式现简单介绍1NF(第一范式),2NF(第二范式),3NF(第三范式)和BCNF,另有第四范式和第五范式留到以后再介绍。在你设计数据库之时,若能符合这几个范式,你就是数据库设计的高手。第一范式(1NF):在关系模式R中的每一个具体关系r中,如果每个属性值都是不可再分的最小数据单位,则称R是第一范式的关系。例:如职工号,姓名,电话号码组成一个... 阅读全文
posted @ 2009-05-07 09:39 Myhsg 阅读(289) 评论(0) 推荐(0)
程序员四大忌
摘要:一忌:轻易言败,没有自信 二忌:浮华不实,自满自大 三忌:死气沉沉,不求甚解 四忌:强调客观,忽略自身 阅读全文
posted @ 2008-10-29 18:58 Myhsg 阅读(197) 评论(0) 推荐(0)
熟女给老实木讷男孩的恋爱建议(转帖)
摘要:网上看到的,对自己很适用,有时间研究下 熟女给老实木讷男孩的恋爱建议 在个人生活越来越自由开放的今天,一方面有那么多的善良优秀的女孩被所谓风流倜傥、巧舌如簧的男人一个个地骗上床,玩过一阵之后,又一个个地给赶下床去。不甘心失败的她们却愈挫愈勇,凭籍着青春,一边自己舔拭着心头的伤痕,一边又转战到另一个男人的床上,执著地追逐着自己想要的幸福,然而幸福却常常是无奈地离她们越来越远........ 阅读全文
posted @ 2008-08-09 18:11 Myhsg 阅读(2029) 评论(12) 推荐(1)
心态决定细节,细节决定成败
摘要:心态决定细节,细节决定成败 所以,心态决定成败!! 大学四年以来,自己一直不能够很好的发挥出来 很打原因在于自己的心态很不正确 最难战胜的是自己,一点都没错 从今天起, 调整自己的心态 相信自己,没有什么困难是不可战胜的,包括战胜自己。 阅读全文
posted @ 2008-08-06 17:17 Myhsg 阅读(313) 评论(0) 推荐(0)
搞技术的不要浮躁
摘要:突然体会到 我们搞技术的 切忌浮躁 应该时时保持平和,宁静的心境 这样才能正真获得进步 当面对一个比较烦人或者很久没弄清楚的问题时 不要去想这个问题有多么困难 多么不可逾越 其实也许这个问题简单的令人发指 要以平静的心境 理清思路,抓住问题的本质与根源 切忌半途而废 也许只要在用1秒种 你就可以把问题解决 你就可以很自信的说 那个问题就那么回事 如果不坚持到最后一秒钟 可能你花了... 阅读全文
posted @ 2008-08-05 20:13 Myhsg 阅读(548) 评论(2) 推荐(1)