爱开卷360

2011年12月9日

摘要：解密搜索引擎技术实战:Lucene&Java精华版出版社:电子工业出版社; 第1版 (2011年5月1日)平装:548页ISBN:7121133938, 9787121133930条形码:9787121133930商品尺寸:25.8 x 18.4 x 3.4 cm商品重量:980 gASIN:B0053H5LMC内容简介本书是猎兔搜索开发团队的软件研发和教学实践的经验汇总。本书总结搜索引擎相关理论与实际解决方案，并给出了Java实现，其中利用了流行的开源项目Lucene和Solr，而且还包括原创的实现。本书主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例阅读全文

posted @ 2011-12-09 11:13 爱开卷360 阅读(1801) 评论(1) 推荐(1)

【好书推介】Lucene实战（第2版）

摘要： Lucene实战(第2版)出版社:人民邮电出版社; 第1版 (2011年6月1日)平装:454页正文语种:简体中文开本:16ISBN:7115251770, 9787115251770条形码:9787115251770商品尺寸:23.2 x 18.4 x 2.2 cm商品重量:662 gASIN:B0053FPAGQ内容简介Michael McCandless的《Lucene实战(第2版)》基于Apache的Lucene 3.0，从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene，包括认识Lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使阅读全文

posted @ 2011-12-09 10:12 爱开卷360 阅读(1797) 评论(1) 推荐(1)

2011年12月7日

《Lucene in Action》 MoreLikeThis 实例

摘要：《Lucene in Action》第二版中对MoreLikeThis 介绍的例子，搜索类似的书籍，代码如下，供大家学习参考：public class BooksMoreLikeThis {public static void main(String[] args) throws Throwable {String indexDir = System.getProperty("index.dir");FSDirectory directory = FSDirectory.open(new File(indexDir));IndexReader reader = IndexR 阅读全文

posted @ 2011-12-07 10:56 爱开卷360 阅读(1752) 评论(0) 推荐(0)

2011年12月5日

基于lucene实现自己的推荐引擎

摘要：采用基于数据挖掘的算法来实现推荐引擎是各大电子商务网站、SNS社区最为常用的方法，推荐引擎常用的Content-Based推荐算法及协同过滤算法（Item-Based 、User-based）在电子商务推荐系统入门v2.0、电子商务推荐系统入门基础中已经有所阐述。但从实际应用来看，对于大部分中小型企业来说，要在电子商务系统完整采用以上算法有很大的难度。1、常用推荐引擎算法问题1）、相对成熟、完整、现成的开源解决方案较少粗略分来，目前与数据挖掘及推荐引擎相关的开源项目主要有如下几类：数据挖掘相关：主要包括Weka、R-Project、Knime、RapidMiner、Orange等文本挖掘相.. 阅读全文

posted @ 2011-12-05 17:29 爱开卷360 阅读(1174) 评论(0) 推荐(0)

几种常见的基于Lucene的开源搜索解决方案对比

摘要：一直接使用 Lucene (http://lucene.apache.org)说明：Lucene 是一个 JAVA 搜索类库，它本身并不是一个完整的解决方案，需要额外的开发工作优点：成熟的解决方案，有很多的成功案例。apache 顶级项目，正在持续快速的进步。庞大而活跃的开发社区，大量的开发人员。它只是一个类库，有足够的定制和优化空间：经过简单定制，就可以满足绝大部分常见的需求；经过优化，可以支持 10亿+ 量级的搜索。缺点：需要额外的开发工作。所有的扩展，分布式，可靠性等都需要自己实现；非实时，从建索引到可以搜索中间有一个时间延迟，而当前的“近实时”(LuceneNear Real Tim 阅读全文

posted @ 2011-12-05 17:17 爱开卷360 阅读(2090) 评论(0) 推荐(0)

2011年12月2日

Solr 相似页面MoreLikeThis

摘要：在 Google 上尝试一个查询，您会注意到每一个结果都包含一个 “相似页面” 链接，单击该链接，就会发布另一个搜索请求，查找出与起初结果类似的文档。Solr 使用 MoreLikeThisComponent（MLT）和 MoreLikeThisHandler 实现了一样的功能。如上所述，MLT 是与标准 SolrRequestHandler 集成在一起的；MoreLikeThisHandler 与 MLT 结合在一起，并添加了一些其他选项，但它要求发布一个单一的请求。我将着重讲述 MLT，因为使用它的可能性更大一些。幸运的是，不需要任何设置就可以查询它，所以您现在就可以开始查询。 ML... 阅读全文

posted @ 2011-12-02 10:50 爱开卷360 阅读(3169) 评论(0) 推荐(0)

2011年12月1日

【例子】Bobo-browse：lucene分组统计扩展组件

摘要： Bobo-browse是一个基于lucene的分组统计插件，可以完成对搜索结果的分面统计，比如“男装（221）女装（332）”等。这里做首次尝试，只谈使用，不谈原理。用熟了才有可能去研究仔细。lucene3 + bobo-browse2.5建索引，更新索引跟它没关系，仅关注搜索。索引建立好后，开始进行分面搜索。bobo-spring.xml：<?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/be 阅读全文

posted @ 2011-12-01 13:31 爱开卷360 阅读(1498) 评论(0) 推荐(0)

2011年11月30日

基于Lucene的联系人拼音检索（第三部分：遗留问题解决）

摘要：遗留问题前两篇文章中提到了检索的时候不支持的一些特性，比如孙燕姿这个名字输入syanz无法查找，为了解决这个问题，今天又对切词的部分进行了修正。解决对于名字字段进行两种全拼和简拼转换，比如孙燕姿，拼音转换后的结果是sunyanzi,syz,然后再对这个转换结果进行前向后向两个方向的N-Gram切分。原有的设计是拼音转换有四种，对于“沈世卿”这样的名字，拼音转换结果有shenshiqing,shshq, ssq, shensq，通过这个方式枚举所有组合编码上不漂亮，设计起来也不nice。所以放弃了这种方式。同时增加了了一个类似于SpellCheck的字段，这个是参考自：http://lucene 阅读全文

posted @ 2011-11-30 15:44 爱开卷360 阅读(1400) 评论(0) 推荐(0)

基于Lucene的联系人拼音检索（第二部分：改进）

摘要：改进1. 上一篇文章中的联系人拼音搜索中对于不同的拼音形式创建了不同的Lucene Field来保存，这样的设计不便于检索和高亮显示，所以对这方面进行了改进。2. 还有一处细微的改进是提供了对于sunyz(孙燕姿sunyanzi)这样的检索条件的支持，也就是切词后的第一个字全拼，后续中文字简拼的支持。比如yanz也可以作为搜索词使用。实现对于改进1，拷贝了ICUTransformFilter代码进行了修改，使得可以对同一个term产生多个拼音结果，用一组ICU Transliterator来进行转换，这一组ICU Transliterator通过参数传递进来。/** * Licensed to 阅读全文

posted @ 2011-11-30 15:40 爱开卷360 阅读(2015) 评论(0) 推荐(0)

基于Lucene的联系人拼音检索（第一部分）

摘要：需求实现联系人信息（姓名，电话，邮件，地址等信息的快速实时检索）姓名字段：全拼的任意相邻组合，每个单字拼音首字母的任意相邻组合，举例：沈从文的全拼是shencongwen，每个单字拼音首字母scw，那么检索shen,shencong,congwen,shencongwen, sc,cw,scw都要能检索出沈从文，当然中文也要ok，比如:沈从,从文,沈从文,沈都要能包含这一条结果，遵循这个思路设计的联系人搜索甚至不自觉的也支持了混合输入比如沈congwen也能检索出沈从文电话：不少于三个字符的任意前缀后缀都要能检索出来。邮件地址等信息：使用lucene的StandardAnalyzer来分词，所阅读全文

posted @ 2011-11-30 15:33 爱开卷360 阅读(4607) 评论(1) 推荐(0)

好文章 • 爱开卷 • 360Tech

公告