随笔分类 -  lucene

摘要:下个月又开始搞搜索了,几个月没动这块还好没有落下.晚上在自己虚拟机上搭建了一个简易搜索集群,分享一下.操作系统环境: Red Hat 4.8.2-16elasticsearch : elasticsearch-1.4.1集群搭建方式: 一台虚拟机上2个节点. 集群存放路径:/export/searc... 阅读全文
posted @ 2014-11-29 23:58 苏二 阅读(12047) 评论(4) 推荐(2) 编辑
摘要:在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从TokenStream流中获取.分词器的核心类Analyzer,TokenStream,Tokenizer,TokenFilter.AnalyzerLucene中的分词器有StandardAnalyzer,StopAnalyzer,SimpleAnalyzer,WhitespaceAnalyzer.TokenStream分词器做好处理之后得到的一个流,这个流中存储了分词的各种信息.可以通过TokenStream有效的获取到分词单元Tokenizer主要负责接收字符流Reader 阅读全文
posted @ 2013-08-14 22:52 苏二 阅读(9942) 评论(3) 推荐(2) 编辑
摘要:安装包下载当前最新版本为:0.20.6http://www.elasticsearch.org/download/官方视频教程http://www.elasticsearch.org/videos/Window环境下载完解开有以下个包:bin是运行的脚本,config是设置文件,lib是放依赖的包。启动解压目录下的bin名称的文件夹,双击elasticsearch.bat文件,就可以启动elasticsearch,启动成功界面如下:启动成功后,会在解压目录下增加2个文件件,data用于数据存储,logs用于日志记录,可以自己创建plugins目录中用于放置自己的插件。此时可以在浏览器中输入:h 阅读全文
posted @ 2013-04-08 18:32 苏二 阅读(15599) 评论(13) 推荐(5) 编辑
摘要:方案一:基于配置的词典扩充项目结构图如下:IK分词器还支持通过配置IKAnalyzer.cfg.xml文件来扩充您的专有词典。谷歌拼音词库下载:http://ishare.iask.sina.com.cn/f/14446921.html?from=like在web项目的src目录下创建IKAnalyzer.cfg.xml文件,内容如下 IK Analyzer 扩展配置 /dicdata/use.dic.dic;/dicdata/googlepy.dic /dicdata/ext_stopword.dic 词典文件的编辑与部署分词器的词典文件格式是... 阅读全文
posted @ 2013-04-07 18:59 苏二 阅读(27989) 评论(6) 推荐(3) 编辑
摘要:Lucene是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎.它提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是很受欢迎的免费Java资讯检索程式库。因公司需要,所以开始爬资料学习,希望得到更多大神的指点.然后把这块做好!当前版本为4.2,官方网站:http://lucene.apache.org/在全文索引工具中,都是由3部分组成1.索引部分2.分词部分3.搜索部分建立索引的步骤1.创建Directory2.创建IndexWriter3.创建Document对象4.为Do 阅读全文
posted @ 2013-04-06 19:39 苏二 阅读(4961) 评论(2) 推荐(4) 编辑
摘要:使用Lucene检索文档关键字时,具体步骤如下:1.对文档处理2.为要处理的文件内容建立索引3.构建查询对象4.在索引中查找使用Lucene检索文档中的关键字实例文件预处理工具类FilePreHandleUtilpackage org.dennisit.study.lucene.prehandle;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOE 阅读全文
posted @ 2013-01-29 14:39 苏二 阅读(2527) 评论(0) 推荐(2) 编辑