2012 年 3月 16 日随笔档案 - 林氏出品

2012年3月16日

摘要：过滤所有非中文非英文字符：replaceAll("[^\\u4e00-\\u9fa5|A-Za-z]", " ") 过滤标点符号：replaceAll("[\\pP‘’“”]", " ")判断获得的每个字符的unicode编码，汉字是有范围的，具体是\u4E00-\u9FA5 和 \uF900-\uFA2D 不在这个范围中的就不是汉字。 \u表示是16进制阅读全文

posted @ 2012-03-16 17:30 林氏出品阅读(161) 评论(0) 推荐(0)

weka中文乱码解决办法

摘要： weka的默认字符集编码是Cp1252，所以如果你导入的数据中有中文字符，就会出现乱码的情况，所以需要修改weka的RunWeka.ini文件方法：将"fileEncoding=cp1252"替换成你的数据对应的字符集编码，比如utf-8，cp936（简体中文），cp950（繁体中文）。问题解决阅读全文

posted @ 2012-03-16 16:44 林氏出品阅读(1109) 评论(0) 推荐(0)

林氏出品

公告