摘要: 最近做个东西,需要对中文文档进行预处理。 首先是统一编码和删除标点符号等操作,用ULTRAEDIT和EDITPLUS可以分别很快的做到这一点。UITRAEDIT的替换里可以对一个文件夹目录的所有文件同时替换,可以用来批处理。 然后是分句和分词,分句一般是在去标点符号前(标点符号可以用停用表去),一般 阅读全文