UTF-8编码规则【chatgpt】
根据UTF-8编码规则,UTF-8字节序列以字节的高位位数来判断字节序列的长度,从而确定一个Unicode字符的开始和结束。
UTF-8的规则如下:
- 一个字节字符(ASCII字符)的第一个字节的最高位为0,后续7位用于表示字符的值。
- 两字节字符的第一个字节的前3位为110,后续5位用于表示字符的值;第二个字节的前2位为10,后续6位用于表示字符的值。
- 三字节字符的第一个字节的前4位为1110,后续4位用于表示字符的值;后续两个字节的前2位均为10,后续6位用于表示字符的值。
- 四字节字符的第一个字节的前5位为11110,后续3位用于表示字符的值;后续三个字节的前2位均为10,后续6位用于表示字符的值。
- 五字节字符、六字节字符等超过四字节的字符不符合UTF-8规范。
根据你提供的数据,可以看出以下规律:
- 每组数据的前两个字节(0x62 0x04)表示一个字符的开始。
- 根据字节的高位位数,可以确定Unicode字符的长度。
- 字符的长度决定了后续字节的数量,根据UTF-8规则解析后续字节。
- 最后两个字节是根据3、4、5、6字节计算出来的,用于验证UTF-8编码的正确性。
 
                    
                     
                    
                 
                    
                 
                
            
         
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号