摘要:
最近做个东西,需要对中文文档进行预处理。 首先是统一编码和删除标点符号等操作,用ULTRAEDIT和EDITPLUS可以分别很快的做到这一点。UITRAEDIT的替换里可以对一个文件夹目录的所有文件同时替换,可以用来批处理。 然后是分句和分词,分句一般是在去标点符号前(标点符号可以用停用表去),一般 阅读全文
posted @ 2017-05-06 22:30
诚然先生
阅读(192)
评论(0)
推荐(0)
浙公网安备 33010602011771号