摘要: 算法任务:1. 给定一个文件,统计这个文件中所有字符的相对频率(相对频率就是这些字符出现的概率——该字符出现次数除以字符总个数,并计算该文件的熵)。2. 给定另外一个文件,按上述同样的方法计算字符分布的概率,然后计算两个文件中的字符分布的KL距离。(熵和KL距离都是NLP自然语言处理中术语,仅仅是涉及到一两个公式而已,不影响您对代码的理解,so just try!)说明:1. 给定的文件可以是两个中文文件或两个英文文件,也可以是两个中英文混合文件。对于中文,计算字符,对于英文,计算词。2.有效字符不包括 空格 换行符 标点符号。3.将中文字符、英文单词、其他非有效字符及其出现次数,分别写入三个 阅读全文
posted @ 2013-11-04 23:09 McQueen1987 阅读(2410) 评论(0) 推荐(0)