摘要:
目录 1.中文语料常常遇到编码问题,将任意字符集文件转为utf-8编码 2.将unlabel文件夹中的所有.txt文件合并,每个文件之间空一行 3.随机抽取.txt文件中的60%,20%,5% 4.将已经分好词的文件去掉空格(正则),恢复成文件原来的样子 5.读取excel文件转换成.json文件 阅读全文
posted @ 2021-06-03 17:10
B0G3
阅读(161)
评论(0)
推荐(0)
浙公网安备 33010602011771号