为什么说一个中文占三个字节 - crhl-yy

缘由

在学习java基础时
~~对于s2，一个中文占用3个字节**，21845个正好占用65535个字节，而且字符串长度是21845，长度和存储也都没超过限制，所以可以编译通过~~
后来发现这句话是错的, java中char的存储是 LATIN-1(1字节) OR UTF-16(2字节)
但是引出了我对 UTF-8 的思考
为啥是三个字节, 不是两个字节吗

java的默认编码格式

那我们看看 UTF-8的wiki

Unicode

故名思意, 为每个字符(任何语言)提供一个独特编码
以满足跨语言、跨平台的文本信息转换

码点的位数	表示的unicode范围	字节序列	Byte 1	Byte 2	Byte 3	Byte4
7	0~127	1	`0xxxxxxx`
11	128~2047	2	`110xxxxx`	`10xxxxxx`
16	2048~65535	3	`1110xxxx`	`10xxxxxx`	`10xxxxxx`
21	>65535	4	`11110xxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`

比如’中’的unicode为4E2D 4^(16∗16∗16) = 16384 >2047

显然是用3位UTF-8存储

posted on 2025-06-13 15:16 crhl-yy 阅读(161) 评论(0) 收藏举报

刷新页面返回顶部