摘要: 在感谢复旦语料库整理人员辛勤劳动的同时,也要指出其工作上的瑕疵。采用了gbk编码而不是UTF-8,这导致大多Linux用户不能直接使用。语料库包含训练集和测试集,分别包含9000多个文档,却分别有近1500个文档是重复的。训练集和测试集中的C35-Law中的部分文件是已经经过分词处理了的(分词结果很差),且部分又不是采用的GBK编码(这给编码转换工作带来麻烦)。有些文章只有文章头部,而没有实际的内容。step1.下载复旦语料库的训练集和测试集。解压。step2.分别删除train和answer文件夹下的C35-Law文件夹。step3.使用FindDupFile工具分别找到train和answ 阅读全文
posted @ 2011-11-01 21:10 张朝阳 阅读(3730) 评论(1) 推荐(1) 编辑