12 2013 档案
摘要:package com.capinfotech.faq.classifier;import java.util.*;import java.io.File;import java.io.IOException;import org.apache.lucene.document.Field;import org.apache.lucene.document.Field.Index;import org.apache.lucene.document.Document;import org.apache.lucene.index.CorruptIndexException;import org.ap
阅读全文
摘要:Lucene的CJKAnalyzer分析器。CJKAnalyzer分析器的思想:对中文汉字,每两个字作为一个词条,例如A,B,C,D是四个中文汉字,使用CJKAnalyzer分析器分词后一共得到三个词条如下:AB,BC,CD。其实,CJKAnalyzer分析器在对中文分词方面比StandardAnalyzer分析器要好一点。因为根据中文的习惯,包括搜索的时候键入关键字的习惯,中文的词(大于一个汉字)比单个汉字的频率应该高一些。但是,在设置相同的过滤词条文本以后,CJKAnalyzer分析器的缺点就是产生了冗余会比较大,相对于StandardAnalyzer分析器来说。使用StandardAna
阅读全文
摘要:private void ReadStreamFromFile() { string filePath = @"D:\abc.txt"; int bufferSize = 1024000; //每次读取的字节数 byte[] buffer = new byte[bufferSize]; System.IO.FileStream stream = null; try { stream = new System.IO.Fi...
阅读全文

浙公网安备 33010602011771号