摘要: 我下载的是TanCorp-12预处理格式step1.编码转换刚下载下来的语料库编码是cp936即gb2312,所以下先转换成utf-8编码。转码工作在windows下进行,用到一个工具iconv.exe.iconv*.txt -p E:\\TanCorp-12-Txt -f gb2312 -t utf-8 -v -sstep2.去掉文件的前3个字节utf-8格式一个汉字是3个字节。Windows下记事本在保存utf-8文件时会在文件头加入3个字节:efbbbf--在上一步使用了iconv.exe后文开头也多出了这3个字节。在Linux下你可以用hexdump -C file查看文件的十六进制编 阅读全文
posted @ 2012-02-18 22:35 张朝阳 阅读(899) 评论(0) 推荐(0) 编辑