摘要:
例如下面代码://摘自《java核心技术》String greeting = "Hello";int n = greeting.length();//5int cpCount =greeting.codePointCount(0,greeting.length());char first =greeting.char(0);//Hchar last = greeting.char(4)//oint index =greeting.offsetbyCodePoints(0,i);int cp = greeting.codePointAt(index);解释:代码点&代 阅读全文
posted @ 2011-03-15 11:03
aodixius
阅读(1049)
评论(0)
推荐(0)
摘要:
字符视图要了解字符集标准,必须能区分三种不同的字符视图: 字符集(字符的抽象列表)。 作为带标量值的“代码点”的字符。 作为编码数据的字符。 字符集(字符的抽象列表)字符集是各种文字(包括拉丁文、西里尔文、中文、朝鲜语、日语、希伯来语和阿拉伯语)中所包含的字符的一个抽象列表,由一百多万个字符组成。字符集还包括其他符号,例如音符。Unicode 和 GB18030 标准都具有字符集。当某个标准添加了新字符时,为了保持对等,另一个标准也将添加这些字符。作为带标量值的“代码点”的字符注意 这第二个字符视图只适用于 Unicode,而不适用于 GB18030。字符集中的每个字符都被分配到一个“代码点” 阅读全文
posted @ 2011-03-15 10:11
aodixius
阅读(617)
评论(0)
推荐(0)
摘要:
GB2312:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,这样我们就可以组合出大约7000多个简体汉字了。在这些编码里,我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了,连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的"全角"字符,而原来在127号以下的那些就叫"半角"字符了。一个汉字算两个英文字符!一个汉字算两个英文字符……GBK:不再要求低字节一定是127号之后的内码,只要第一个字节是大于127就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内 阅读全文
posted @ 2011-03-15 09:38
aodixius
阅读(241)
评论(0)
推荐(0)