摘要: 使用信息增益法选择特征项时需要建立word-doc矩阵。由于预处理后的测试集有7196个文档,按照常规方法内存根本不够用,所以决定采用Hadoop的standalone模式。View Code /** * Author: Orisun * Date: Sep 5, 2011 * FileName: WordDocMatrix.java * Function: 建立word-doc矩阵 */import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;i 阅读全文
posted @ 2011-11-02 17:07 张朝阳 阅读(1212) 评论(0) 推荐(0) 编辑
摘要: ICTCLAS提供C/C++,Java,C#接口。我发现在ubuntu上使用时,配置文件Configure.xml不起作用,因为不管<Tagger>设为On还Off,C版的总是加词性标注,而JNI版的总是不加词性标注。而<GranularityContorl>设为开或关结果都一样。先给一个C++版的:#include <string.h>#include <stdlib.h>#include <stdio.h>#include "/home/orisun/SoftWare/ICTCLAS50_Linux_RHAS_32_C/ 阅读全文
posted @ 2011-11-02 14:48 张朝阳 阅读(2951) 评论(0) 推荐(0) 编辑