代码改变世界

随笔档案-2012年05月

加载词库小程序

2012-05-04 22:30 by Lves Li, 259 阅读, 收藏,
摘要: //如何向一个UTF-8或者其他编码方式的文档中添加新词 //本程序可以添加一个字符串或者添加一个集合import java.io.BufferedWriter; import java.io.FileOutputStream; import java.io.IOException; import java.io.OutputStreamWriter; import java.util.ArrayList; import java.util.Collection; import java.util.Iterator; public class AddNewWord { public s... 阅读全文

”万能查重器“小程序

2012-05-04 22:15 by Lves Li, 230 阅读, 收藏,
摘要: //今天组长让我写一个查重的的程序来给一个词库查重 把相同的删除//一开始我绞尽脑汁想用嵌套的for循环怎么都有bug 原因是&&和&的理解错误//后来我想到了用Map集合 应为它的键值不可能相同 这样就轻松解决了重复的问题 恩恩哈哈········//Map pp=new HashMap; 他就是一个很好的查重的机器啊import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundExceptio 阅读全文

lucene 自定义分词器小程序

2012-05-01 22:43 by Lves Li, 192 阅读, 收藏,
摘要: 测试类package LuceneUtil; import java.io.Reader; import java.util.Set; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.LetterTokenizer; import org.apache.lucene.analysis.LowerCaseFilter; import org.apache.lucene.analysis.StopAnalyzer; import org.apache.lucene.analysis.St.. 阅读全文

lucene 中文分词器中的一个Bug

2012-05-01 20:16 by Lves Li, 177 阅读, 收藏,
摘要: lucene 中文分词器如何扩充中文词库啊求帮助???1534432371@qq.com这是我的邮箱在帮着找找这个小程序那错了??(我想让“烟台大学”作为一个语汇单元,不分词)import java.io.BufferedWriter;import java.io.FileWriter;import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import org.apache.lucene.analysis.Analyzer;import org.wltea.analyzer.lucene. 阅读全文