2013年4月16日

摘要: 使用PDFBOX 对pdf文件进行解析时 常报一些 for input string:"" 错误 ,因为pdf文件中含有某些字符串无法转换之类导致的,没有啥办法解决.如果使用 HBTextParse对PDF文件进行解析的话 没有PDFBOX之类的错误了,问题解决. 但需安装Adobe PDF IFilter6.0 或更高版本。感谢作者 :eaglethttp://www.cnblogs.com/eaglet/archive/2013/01/10/2854224.html#2614415 阅读全文
posted @ 2013-04-16 12:36 ——阿文 阅读(227) 评论(0) 推荐(0)
摘要: =================多目录搜索 ============// 我们可以使用 MultiReader 或 MultiSearcher 搜索多个索引库。//string indexPath = @"D:\IndexFilePath"; //string indexPath2 = @"D:\IndexFilePath2"; //MultiReader reader = new MultiReader(new IndexReader[] { IndexReader.Open(indexPath), IndexReader.Ope... 阅读全文
posted @ 2013-04-16 11:25 ——阿文 阅读(453) 评论(0) 推荐(0)
摘要: ============本文转自==========http://job-love.blog.sohu.com/97319481.html================================Lucene.net是目前在.net环境中被普遍使用的全文索引的开源项目,这次在项目的开发中也使用它进行全文索引。在开发过程中碰到一些小问题就是对多字段和多索引目录进行搜索。1、多字段搜索就是同时要一个以上的字段中的内容进行比较搜索,类似概念在SQL中就是select * from Table where a like '%query%' or b like '%quer 阅读全文
posted @ 2013-04-16 09:59 ——阿文 阅读(245) 评论(0) 推荐(0)

2013年4月12日

摘要: 转自:http://www.blogjava.net/xmatthew/archive/2009/02/15/253864.htmlCronTrigger配置格式:格式: [秒] [分] [小时] [日] [月] [周] [年]序号说明是否必填允许填写的值允许的通配符1秒是0-59 , - * /2分是0-59 , - * /3小时是0-23 , - * /4日是1-31 , - * ? / L W5月是1-12 or JAN-DEC , - * /6周是1-7 or SUN-SAT , - * ? / L #7年否empty 或 1970-2099, - * /通配符说明:*表示所有值. 例 阅读全文
posted @ 2013-04-12 09:04 ——阿文 阅读(139) 评论(0) 推荐(0)

2013年4月11日

摘要: 转自:http://www.cnblogs.com/studyzy/archive/2005/06/08/694120.htmLucene.Net 系列一作者 idior2005-03-16 22:36本文介绍了什么是Lucene,Lucene能做什么.如何从一个文件夹下的所有txt文件中查找特定的词?本文将围绕该个实例介绍了lucene.net的索引的建立以及如何针对索引进行搜索.最后还将给出源代码供大家学习.源代码下载What’s LuceneLucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能.Lucene的使用者不需要深入了解有关全文检索的知 阅读全文
posted @ 2013-04-11 23:03 ——阿文 阅读(318) 评论(0) 推荐(0)
摘要: 转自:http://www.360doc.com/content/13/0411/22/11869636_277688563.shtmlIndexWriter.SetUseCompoundFile(true) 有什么用?在创建索引库时,会合并多个 Segments 文件到一个 .cfs 中。此方式有助于减少索引文件数量,减少同时打开的文件数量。可以使用 CompoundFileReader 查看 .cfs 文件内容。CompoundFileReader reader = new CompoundFileReader(FSDirectory.GetDirectory("y:\\inde 阅读全文
posted @ 2013-04-11 22:49 ——阿文 阅读(240) 评论(0) 推荐(0)
摘要: 转自:http://www.360doc.com/content/13/0411/22/11869636_277679623.shtmllucene的缓存可分为两类:filter cache和field cache。filter cache的实现类为CachingWrapperFilter,用来缓存其他Filter的查询结果。field cache的实现类是FieldCache,缓存用于排序的field的值。简单来说,filter Cache用于查询缓存,field cache用于排序。这两种缓存的生存周期都是在一个IndexReader实例内,因此提高Lucene查询性能的关键在于如何维护和 阅读全文
posted @ 2013-04-11 22:12 ——阿文 阅读(493) 评论(0) 推荐(0)
摘要: 转自:http://www.360doc.com/content/13/0411/22/11869636_277679277.shtmllucene中的filter其实并不起眼,大家对其对性能的影响也不是很关注,但实际上filter是除了单纯搜索以外,其他搜索附加功能的必选组件,其性能很大程度上会直接影响搜索的性能,之前我一直认为filter的性能比query高,但事实说明并不完全如此(这里所说的负荷是指io消耗并不是cpu),实际上在lucene中充满着各种io流,也就是说很多东西都无法从根本上保存,这也给缓存带来了很大难度(这个问题看似简单,但是在超复杂的组合查询下,缓存可能会几乎无用,原 阅读全文
posted @ 2013-04-11 22:10 ——阿文 阅读(236) 评论(0) 推荐(0)
摘要: 转自:http://www.360doc.com/content/09/0216/17/32573_2562131.shtml1lucene简介1.1什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com或者googleDesktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要搜索的关键词出现在哪里。知道了这个本质,你就可以发挥想象做任何符合这个条件的事情了。 阅读全文
posted @ 2013-04-11 22:08 ——阿文 阅读(362) 评论(0) 推荐(0)
摘要: 转自:http://blog.csdn.net/xyx139/article/details/6953510Lucene是可以做到的,利用lucene的Filter,具体可以查看lucene的api中的org.apache.lucene.search.CachingWrapperFilter,它可以缓存上次的搜索结果,从而实现在结果中的搜索。测试实例:package com.wsjava;importjava.io.IOException;import org.apache.lucene.analysis.SimpleAnalyzer;import org.apache.lucene.docu 阅读全文
posted @ 2013-04-11 22:05 ——阿文 阅读(199) 评论(0) 推荐(0)

导航