emoji字符的范围、正则替换Emoji字符
Emoji与Unicode、UTF8
Emoji是一种特殊的字符,而不是像QQ表情一样的普通字符的转义表示。在Unicode编码中,占用了U+1F300到U+1F64F中的部分范围。
Emoji字符的特殊之处在于,其使用的Unicode字符超出了通常使用的三字节UTF-8编码的Unicode范围,即BMP范围U+0000到U+FFFF。按照UTF-8编码规范,Emoji字符属于辅助平面范围,通常对应4字节的UTF-8编码。
hive sql正则替换Emoji字符
select regexp_replace('abch🤫 🤔 🤐 ij', '[^\u0000-\uFFFF]', '');
我成功因为我志在成功
浙公网安备 33010602011771号