摘要:
//如何向一个UTF-8或者其他编码方式的文档中添加新词 //本程序可以添加一个字符串或者添加一个集合import java.io.BufferedWriter;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.util.ArrayList;
import java.util.Collection;
import java.util.Iterator; public class AddNewWord { public s... 阅读全文
随笔档案-2012年05月
”万能查重器“小程序
2012-05-04 22:15 by Lves Li, 230 阅读, 收藏,
摘要:
//今天组长让我写一个查重的的程序来给一个词库查重 把相同的删除//一开始我绞尽脑汁想用嵌套的for循环怎么都有bug 原因是&&和&的理解错误//后来我想到了用Map集合 应为它的键值不可能相同 这样就轻松解决了重复的问题 恩恩哈哈········//Map pp=new HashMap; 他就是一个很好的查重的机器啊import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundExceptio 阅读全文
lucene 自定义分词器小程序
2012-05-01 22:43 by Lves Li, 192 阅读, 收藏,
摘要:
测试类package LuceneUtil; import java.io.Reader;
import java.util.Set; import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.LetterTokenizer;
import org.apache.lucene.analysis.LowerCaseFilter;
import org.apache.lucene.analysis.StopAnalyzer;
import org.apache.lucene.analysis.St.. 阅读全文
lucene 中文分词器中的一个Bug
2012-05-01 20:16 by Lves Li, 177 阅读, 收藏,
摘要:
lucene 中文分词器如何扩充中文词库啊求帮助???1534432371@qq.com这是我的邮箱在帮着找找这个小程序那错了??(我想让“烟台大学”作为一个语汇单元,不分词)import java.io.BufferedWriter;import java.io.FileWriter;import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import org.apache.lucene.analysis.Analyzer;import org.wltea.analyzer.lucene. 阅读全文
浙公网安备 33010602011771号