2010年3月5日
摘要: 原文地址:http://blog.chinaunix.net/u2/73798/showart_1731875.html在用nutch抓取网页的时候,设置了10层,运行5个多小时之后,系统提示内存溢出异常:java.lang.OutOfMemoryError: Java heap spacefetcher caught:java.lang.OutOfMemoryError: Java heap s... 阅读全文
posted @ 2010-03-05 09:27 Myhsg 阅读(645) 评论(0) 推荐(0) 编辑
  2010年3月1日
摘要: 本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/forfuture1978/archive/2009/10/22/4711308.aspx一、总论根据http://lucene.apache.org/java/docs/index.html 定义:Lucene 是一个高效的,基于Java 的全文检索库。 所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什... 阅读全文
posted @ 2010-03-01 21:04 Myhsg 阅读(305) 评论(0) 推荐(0) 编辑
  2010年1月30日
摘要: 原文地址:http://sjtu.blog.sohu.com/108202346.html------------------------------------------软开开发篇--------------------------------------------------- 在我刚进软开的时候,我想,这有什么啊,泡着茶写点儿JAVA的日子么?最多用JAVA查个数据库,插个数据库,还有啥... 阅读全文
posted @ 2010-01-30 09:31 Myhsg 阅读(3072) 评论(0) 推荐(0) 编辑
  2010年1月7日
摘要: 向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即 。 在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有文档的数目,ni为含有词条ti的文档数... 阅读全文
posted @ 2010-01-07 14:24 Myhsg 阅读(406) 评论(0) 推荐(0) 编辑
摘要: 直接使用词的个数在比较词数很多和词数很少的文档时存在着问题。例如文档I中含有10000个词,而词a出现了10次;文档II中含有100个词,而a出现了5次。这样在相似度计算时,文档I中a对最后结果的影响比文档II中的a要大。这显然是不合理的,因为a只点文档I的0.1%而却占文档II的5%。为了解决这类问题,我们引入词频(TF)和反词频(IDF)两个概念。其中TF = f/m,其中f表示当前词在当前文... 阅读全文
posted @ 2010-01-07 10:59 Myhsg 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 一: 不同区域的权重计算1. 对出现在文档的不通区域的term赋予不同的权值,例如title,author,body等,这样需要在倒排表中记录term每一次出现的位置2. 对不同的区域赋予不通的权值,Gi, 使得 Sum(Gi) = 13. 对于这个Gi的值,可以通过机器学习的方法来确定:给定一个文档集合和query,以及query与文档之间的相似性,然后假定一个表达式,采用这个样本来计算各种系数... 阅读全文
posted @ 2010-01-07 10:54 Myhsg 阅读(312) 评论(0) 推荐(0) 编辑
  2010年1月3日
摘要: Nutch的文件目录所包含的内容: crawldb目录下面存放下载的URL,以及下载的日期,用来页面更新检查时间。linkdb目录存放URL的关联关系,是下载完成后分析时创建的,通过这个关联关系可以实现类似google的pagerank功能。segments目录存储抓取的页面,下面子目录的个数与获取页面的层数有关系。 内含有6个子目录 content:下载页面的内容 crawl_fetch:... 阅读全文
posted @ 2010-01-03 20:47 Myhsg 阅读(679) 评论(0) 推荐(0) 编辑
  2010年1月1日
摘要: nutch环境配置备忘:1、Cygwin安装我使用的是Cygwin本地安装版,local install,并把所有组件都设为installed即可。2、解压nutch将NUTCH-0.9解压后复制到HOME/Administrator下,或者在Cygwin下使用gunzip命令皆可。3、安装JDK可能是我的系统最近不正常吧,我的JDK必须安装在nutch目录下才能找到(正确设置了环境变量,可是只要... 阅读全文
posted @ 2010-01-01 11:49 Myhsg 阅读(985) 评论(0) 推荐(0) 编辑
摘要: 告别2009,2010一切从头开始!!! 阅读全文
posted @ 2010-01-01 10:17 Myhsg 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 测试环境Nutch release 0.9Eclipse 3.3 - aka EuropaJava 1.6开始之前Setting up Nutch to run into Eclipse can be tricky, and most of the time you are much faster if you edit Nutch in Eclipse but run the scripts f... 阅读全文
posted @ 2010-01-01 10:16 Myhsg 阅读(1011) 评论(0) 推荐(0) 编辑