摘要:
过滤所有非中文非英文字符 :replaceAll("[^\\u4e00-\\u9fa5|A-Za-z]", " ") 过滤标点符号:replaceAll("[\\pP‘’“”]", " ")判断获得的每个字符的unicode编码,汉字是有范围的,具体是\u4E00-\u9FA5 和 \uF900-\uFA2D 不在这个范围中的就不是汉字。 \u表示是16进制 阅读全文
posted @ 2012-03-16 17:30
林氏出品
阅读(161)
评论(0)
推荐(0)
摘要:
weka的默认字符集编码是Cp1252,所以如果你导入的数据中有中文字符,就会出现乱码的情况,所以需要修改weka的RunWeka.ini文件方法:将"fileEncoding=cp1252"替换成你的数据对应的字符集编码,比如utf-8,cp936(简体中文),cp950(繁体中文)。问题解决 阅读全文
posted @ 2012-03-16 16:44
林氏出品
阅读(1108)
评论(0)
推荐(0)

浙公网安备 33010602011771号