pony

抄袭是一种美德

05 2009 档案

lucene的中文分词器
摘要:ucene的中文分词器到现在还没有好的解决办法。下边介绍了两个lucene自己提供的分词器和一个javaeye上的网友实现的分词器。关于各个分词器的不同见代码中的print信息。直接运行得到console的输出结果更容易对比不同。packageanalyzer;importjava.io.Reader;importjava.io.StringReader;importorg.apache.luce... 阅读全文

posted @ 2009-05-21 14:14 马森 阅读(983) 评论(0) 推荐(0)

lucene的丰富的各种查询
摘要:lucene支持十分丰富的查询,这里列写其中一些比较常用的查询的用法。term查询、queryParser查询 ,booleanQuerypackagesearch;importorg.apache.lucene.analysis.standard.StandardAnalyzer;importorg.apache.lucene.index.Term;importorg.apache.lucene... 阅读全文

posted @ 2009-05-21 14:14 马森 阅读(747) 评论(0) 推荐(0)

比较lucene各种英文分析器Analyzer
摘要:比较常用的几种英文分析器,他们之间的区别见程序中的注释。SimpleAnalyzerStandardAnalyzerWhitespaceAnalyzerStopAnalyzerpackageanalyzer;importjava.io.Reader;importjava.io.StringReader;importorg.apache.lucene.analysis.Analyzer;import... 阅读全文

posted @ 2009-05-21 14:12 马森 阅读(1087) 评论(0) 推荐(0)

lucene建立索引时候的用到的一些文档和目录操作
摘要:在前边的文章中多是用的添加一个document,这里介绍一下其它的文档操作1,按照编号删除publicvoiddeleteDoc(StringindexDir)throwsException{IndexReaderreader=IndexReader.open(indexDir);reader.delete(1);reader.close();}2,根据term来删除publicvoiddelet... 阅读全文

posted @ 2009-05-21 14:12 马森 阅读(367) 评论(0) 推荐(0)

lucene 索引非txt文档 (pdf word rtf html xml)
摘要:搜索要首先要索引,索引的话最简单的方式是索引txt文件,上文已经介绍了。这里介绍一下一些其它格式的文档的索引,例如ms word ,pdf ,rtf等。索引方法:就是先把各种文档先转化成纯文本再索引,所以关键在转换上。幸好java世界中有太多的开源工程,很多都可以拿来直接使用。下边分别介绍一下:写在所有之前:下边所有介绍中的is参数都是inputStream,就是被索引的文件。word文档:把wo... 阅读全文

posted @ 2009-05-21 14:11 马森 阅读(744) 评论(0) 推荐(0)

apache lucene 的核心类
摘要:下边介绍一下lucene的核心类:(参考lucene in action)主要有两部分组成,核心索引类和核心搜索类,顾名思意,就是用来建立索引和用来搜索的类。IndexWriter:可以对索引进行写操作,但不能读取或者搜索。是唯一能写索引的类。Directory:Directory 类代表一个Lucene索引的位置。它是一个抽象类,允许它的子类(其中的两个包含在Lucene中)在合适时存储索引。在... 阅读全文

posted @ 2009-05-21 14:11 马森 阅读(339) 评论(0) 推荐(0)

apache lucene 一个最简单的实例
摘要:就像每个程序都有一个Hello World来让人体验它一样,lucene也可以很简单的提供一个实例。如下(来自lucene in action的例子)有两个类组成:一个是建立索引packagemy;importjava.io.File;importjava.io.FileReader;importjava.io.IOException;importjava.util.Date;importorg.... 阅读全文

posted @ 2009-05-21 14:10 马森 阅读(476) 评论(0) 推荐(0)

apache lucene介绍
摘要:什么是luceneApache Lucene是一个开放源程序的搜寻器引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引 让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是 使使用者可以随时应自已需要自订其功能。 Lucene是apache软件基金会... 阅读全文

posted @ 2009-05-21 14:10 马森 阅读(1269) 评论(0) 推荐(0)

浅谈Base64编码
摘要:我打赌当你见到Base64这个词的时候你会觉得在哪里见过,因为在你能够上网看到这篇文章的时候你已经在后台使用它了。如果您对二进制数有所了解,你就可以开始读它了。打开一封Email,查看其原始信息(您可以通过收取、导出该邮件用文本编辑器查看)。你会看到类似这样的一个效果: Date: Thu, 25 Dec 2003 06:33:07 +0800 From: "eSX?!" <snaix@ye... 阅读全文

posted @ 2009-05-15 12:06 马森 阅读(309) 评论(0) 推荐(0)

crontab命令简介
摘要:简介 crontab-操作每个用户的守护程序和该执行的时间表。 部分参数说明 crontabfile[-uuser]-用指定的文件替代目前的crontab。 crontab-[-uuser]-用标准输入替代目前的crontab. crontab-1[user]-列出用户目前的crontab. crontab-e[user]-编辑用户目前的crontab. crontab-d[user]-删除用户目... 阅读全文

posted @ 2009-05-13 16:30 马森 阅读(218) 评论(0) 推荐(0)

html中点击 checkbox (radio也可以) 隐藏tr 或 展现tr
摘要:Html代码 总结一下html中的隐藏tr的javascript方法 -----------------------源码----------------------------------- <html> <head> <title>点击checkbox隐藏展现某行</title> <script> functionchangeOracl... 阅读全文

posted @ 2009-05-11 12:09 马森 阅读(1311) 评论(0) 推荐(0)

常用的JavaScript验证正则表达式
摘要:http://www.ccvita.com/61.html 下面都是我收集的一些比较常用的正则表达式,因为平常可能在表单验证的时候,用到的比较多。特发出来,让各位朋友共同使用。呵呵。匹配中文字符的正则表达式: [u4e00-u9fa5]评注:匹配中文还真是个头疼的事,有了这个表达式就好办了匹配双字节字符(包括汉字在内):[^x00-xff]评注:可以用来计算字符串的长度(一个双字节字符长度计2,A... 阅读全文

posted @ 2009-05-11 12:06 马森 阅读(210) 评论(0) 推荐(0)

导航