文章分类 -  字符与编码

摘要:UNICODE,GBK,UTF-8区别最近迷上改魔兽地图,破解解压修改挺好玩的~ 有个文件头的问题,搞了半天才知原来是utf-8码...总算把这些都搞清楚了.简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式.utf-8码完全只针对uncode来组织的,如果GBK要转UTF-8必须先转uncode码,再转utf-8就OK了.详细的就见下面转的这篇 阅读全文
posted @ 2013-01-17 15:14 晴心 阅读(518) 评论(0) 推荐(0)
摘要:UNICODE与UTF8,UTF16的含义最初,Internet上只有一种字符集——ANSI的ASCII字符集(American Standard Code for Information Interchange, “美国信息交换标准码),它使用7 bits来表示一个字符,总共表示128个字符,后来IBM公司在此基础上进行了扩展,用8bit来表示一个字符,总共可以表示256个字符,充分利用了一个字节所能表达的最大信息ANSI字符集:ASCII字符集,以及由此派生并兼容的字符集,如:GB2312,正式的名称为MBCS(Multi-Byte Chactacter System,多字节字符系统),通 阅读全文
posted @ 2013-01-17 15:08 晴心 阅读(383) 评论(0) 推荐(0)
摘要:Java与Unicode:Java的class文件采用utf8的编码方式,JVM运行时采用utf16。Java的字符串是unicode编码的。总之,Java采用了unicode字符集,使之易于国际化。Java支持哪些字符集:即Java能识别哪些字符集并对它进行正确地处理?查看Charset类,最新的JDK支持160种字符集。可以通过static方法availableCharsets拿到所有Java支持的字符集。Java代码assertEquals(160,Charset.availableCharsets().size());Set<String>charsetNames=Char 阅读全文
posted @ 2013-01-17 14:55 晴心 阅读(813) 评论(0) 推荐(0)