随笔 - 109  文章 - 0  评论 - 32 
03 2010 档案
nutch 0.9二次开发--内存溢出(转)
摘要: 原文地址:http://blog.chinaunix.net/u2/73798/showart_1731875.html在用nutch抓取网页的时候,设置了10层,运行5个多小时之后,系统提示内存溢出异常:java.lang.OutOfMemoryError: Java heap spacefetcher caught:java.lang.OutOfMemoryError: Java heap s...阅读全文
posted @ 2010-03-05 09:27 Myhsg 阅读(322) | 评论 (0) 编辑
全文检索基本原理(转)
摘要: 本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/forfuture1978/archive/2009/10/22/4711308.aspx一、总论根据http://lucene.apache.org/java/docs/index.html 定义:Lucene 是一个高效的,基于Java 的全文检索库。 所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什...阅读全文
posted @ 2010-03-01 21:04 Myhsg 阅读(110) | 评论 (0) 编辑