1. 获取汉字的UTF-8

    PHP:

    var_export(json_encode("你"));

     

    javaScript:

    alert(escape("你"));

 

java:

JDK下面的native2ascii 工具查看字符的unicode编码

  1. 匹配所有中文

    JS:

    var pattern=/[\u4e00-\u9fa5]/g;

    在正则中,\u加上四位十六进制数,范围从\u4e00(一)开始到\u9fa5(龥 ),就能匹配所有中文

     

    php:

    在PHP中。是用\x代表十六进制数,并且位数超过四位必须要大括号概括

    所以在PHP中匹配中文要这么写:[\x{4e00}-\x{9fa5}]

    并必须加上 "u" 修饰符,字符串如果是utf-8,那么必须要加上u修饰符

     

    Java:

    [\\x{4e00}-\\x{9fa5}]

    [\\u4e00-\\u9fa5]

     

    ps:如果字符是gb2312,推荐先把字符串转化为utf-8编码。同样使用统一的正则来匹配,不建议不同的编码各一套正则写法。

posted on 2016-03-18 13:36  fatsnake  阅读(249)  评论(0编辑  收藏  举报