信息时代的生存哲学

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

文章分类 -  全文检索

摘要:基于Java的全文索引引擎Lucene简介 选择自 ezerg 的 Blog 内容摘要:Lucene是一个基于Java的全文索引工具包。1. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 2. 全文检索的实现:Luene全文索引和数据库索引的比较 3. 中文切分词机制简介:基于词库和自动切分词算法的比较 4. 具体的安装和使用简介:系统结构介绍和演示 5. H... 阅读全文
posted @ 2004-11-16 01:44 信息时代的生存哲学 阅读(1422) 评论(0) 推荐(1)

摘要:Lucene之起源现状及初步应用 1.起源与发展 Lucene是一个高性能、纯Java的全文检索引擎,而且免费、开源。Lucene几乎适合于任何需要全文检索的应用,尤其是跨平台的应用。 Lucene的作者Doug Cutting是一个资深的全文检索专家,刚开始,Doug Cutting将Lucene发表在自己的主页上,2000年3月将其转移到sourceforge,于2001年1... 阅读全文
posted @ 2004-10-20 00:18 信息时代的生存哲学 阅读(1265) 评论(0) 推荐(0)

摘要:文本分析提供了概念发现,自动分类以及无结构文档的创新显示原作者:Seth GrimesAs the minutia of everyday business and personal life migrates to the Internet, small wonder that text search is likely the Web's most popular function. Who ... 阅读全文
posted @ 2004-10-13 18:10 信息时代的生存哲学 阅读(1534) 评论(1) 推荐(0)

摘要:Lucene学习笔记(1) Lucene是一套全文检索的API,对其介绍的文章和应用的案例都多,可参考lucene及本文的参考文献。 此次学习,以实用为主,一是简单应用,二是Web应用,三是汉化,四相关应用(Lucene主页上在SandBox中)。 0、准备工作 去Lucene的主页下载目前的稳定版本lucene-1.2.tar.gz,解压缩,将lucene-1.2目录下的两个jar文件l... 阅读全文
posted @ 2004-08-17 15:10 信息时代的生存哲学 阅读(1346) 评论(0) 推荐(0)

摘要:Lucene学习笔记(2) 不仅仅在推广和介绍方面,车东在Lucene的汉化及web应用,也作出了极大的极大的贡献。他将自己的汉化和web应用两方面的成果,放在sourceforge上成了开源的项目。下面主要是对这个项目的学习笔记。 对Lucene的汉化,车东开发了两个Analyzer,一个是二元切分,一个单字切分。利用这两个中的任一个进行分析,都可以进行汉字的索引和检索了。我把这两个An... 阅读全文
posted @ 2004-08-17 15:09 信息时代的生存哲学 阅读(1078) 评论(0) 推荐(0)

摘要:Lucene学习笔记(3) 继续学习车东利用Lucene提供网站全文检索的开源项目。 由于文档不全,这次看代码看得很苦,几乎是用log4j一个类一个方法的看过来的。令人高兴的是,期间请教车东时,他说到要重新整理一下整个项目的源代码和文档,估计后来者可以轻松矣。 除了以前提到的汉化外,车东在这个项目中,加入了很多实用的东东,如反显、排序、摘要等,甚至也连网页过期时间、输出格式的限制都考虑... 阅读全文
posted @ 2004-08-17 15:07 信息时代的生存哲学 阅读(1189) 评论(1) 推荐(0)

摘要:Lucene学习笔记(4)将M$Word转为HTML 后面是一些关于Luncene外围的工具,这是其中之一。 Majix利用jacob,将M$Word转换为xml,进而转换为html. 试了一下,对英语文档没问题,对汉语的却转换成了乱码,估计是那些地方需要设置一下。 Majix中用了一个tool叫jade(如果你认为是反编译的那个jad就错了,hehe),是一个DSSSL的实现,可以做... 阅读全文
posted @ 2004-08-17 15:06 信息时代的生存哲学 阅读(1223) 评论(0) 推荐(0)

摘要:Lucene学习笔记(5)爬行者LARM 爬行者LARM是一个抓取网页的机器人,用纯Java写就。 通过作者的叙述,写一个爬行者,远非想象中的那么简单。HTML规范太简单了,所以会出很多标新立异的HTML文件。网络的随机性太强了,说不定就会遇到什么问题。这种种意外,都会考验一个爬行者。 LARM作为Lucene的子项目,还在开发之中,连个稳定版都没有,只能通过CVS取得。而且文档的说明... 阅读全文
posted @ 2004-08-17 15:05 信息时代的生存哲学 阅读(1227) 评论(0) 推荐(0)

摘要:使用Lucene建立自己的搜索引擎 lucene是一个极其灵活的开放源代码的搜索引擎。 Lucene会直接同你的Web应用程序集成到一起。它是由Jakarta Apache工作组使用Java编写成的。你的Java应用程序能够将Lucene作为任何搜索功能的核心来使用。Lucene能够处理任何类型的文本数据;但是它没有内置对Word、Excel、PDF和XML的支持。但是还是有一些解决方案... 阅读全文
posted @ 2004-08-11 13:06 信息时代的生存哲学 阅读(2143) 评论(1) 推荐(0)

摘要:摘要:Lucene是一个基于JAVA的全文索引工具包。1. Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展 2. 从Lucene我们还可以学到什么 Hacking Lucene 简化的查询分析器 个人感觉lucene成为JAKARTA项目后,画在了太多的时间用于调试日趋复杂QueryParser,而其中大部分是大多数用户并不很熟悉的,目前LUCENE支持的... 阅读全文
posted @ 2004-08-11 13:02 信息时代的生存哲学 阅读(1253) 评论(0) 推荐(0)

摘要:简介:Lucene是一个基于JAVA的全文索引工具包。1. 中文切分词机制简介:基于词库和自动切分词算法的比较 2. 具体的安装和使用简介:系统结构介绍和演示 关于亚洲语言的的切分词问题(Word Segment)对于中文来说,全文索引首先还要解决一个语言分析的问题,对于英文来说,语句中单词之间是天然通过空格分开的,但亚洲语言的中日韩文语句中的字是一个字挨一个,所有,首先要把语句中按“词”进行索引... 阅读全文
posted @ 2004-08-11 13:00 信息时代的生存哲学 阅读(1085) 评论(0) 推荐(0)

摘要:作者: 车东Wednesday, August 14 2002 12:15 PM 摘要:Lucene是一个基于JAVA的全文索引工具包。1. 基于JAVA的全文索引引擎Lucene简介:关于作者和Lucene的历史 2. 全文检索的实现:Luene全文索引和数据库索引的比较 基于JAVA的全文索引/检索引擎——LuceneLucene不是一个完整的全文索引应用,而是是一个用JAVA写的全文索引引... 阅读全文
posted @ 2004-08-11 12:57 信息时代的生存哲学 阅读(1255) 评论(0) 推荐(0)

摘要:WWW上信息检索概述 ̄ ——— 信息检索原理和技术 海南大学 徐华 (99714049) 摘要 计算机处理的数据量不断地呈指数增长,随着数据信息库积累的数据和主题越来越多,怎样快速、有效、经济地检索某个主题的所有信息,就成了一个十分热门的课题。解决这一难题的方法之一是采用智能搜索技术。本文中给... 阅读全文
posted @ 2004-08-11 12:50 信息时代的生存哲学 阅读(2187) 评论(0) 推荐(0)

摘要:网站中,有大量的被反复利用的有价值信息,如何科学高效地去管理这些信息,使它们在最短的时间内最大限度地发挥其价值,是每一个网站面临的问题。 网站全文检索系统就是将用户的网站内容由系统自动地添加到检索引擎(数据库)中,这样,网站的访问者就可以用关键词方式查询网站中任何他关心的内容而不需繁琐的人工查找。 传统的信息管理的方式是采用以纸张为载体的信息分类管理,容量小,保存难。随着... 阅读全文
posted @ 2004-08-11 12:48 信息时代的生存哲学 阅读(827) 评论(1) 推荐(0)