摘要: 1.复旦语料库train集中有6个类是多于1000个文档的,把它们取出来,分别删减至1000个文档,构成接下来我们要进行实验的训练集。2.执行Predeal.java,它依次进行三项操作:把文件重命名为顺序的数字编号;把文件编号(即文件名)写入文档开头,用一个空格与正文内容隔开,去除正文每行末的换行符,把整个文档合并为一行,去除正文行间的空格;用ICTCLAS进行中文分词.由于一次运行对6000个文件进行分词程序会中断退出。所以只好一次只处理1000个文件。这里去除停用词的方法我多说一句,程序中的代码是if (word.length()>=2 && (!Predeal.s 阅读全文
posted @ 2011-09-03 16:55 张朝阳 阅读(4255) 评论(3) 推荐(0) 编辑