字符集转换(GBK->Unicode->Utf-8)
摘要:接触到汉字处理的同学一定都遇到过关于字符集的问题,通常因为前端和后端约定不一致导致显示或操作异常。 本文整理了GBK、Unicode、UTF-8等编码方式的基本概念和区别,并提供了这几种编码方式的相互转换代码。字符集GBK 早期的计算机使用7位的ASCII编码,为了处理汉字,于是有了用于简体中文的GB2312和用于繁体中文的big5。 GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。 GBK(1995年)即汉字内码扩...
阅读全文
posted @ 2012-02-24 18:51
浙公网安备 33010602011771号