emoji字符的范围、正则替换Emoji字符

Emoji与Unicode、UTF8

Emoji是一种特殊的字符,而不是像QQ表情一样的普通字符的转义表示。在Unicode编码中,占用了U+1F300U+1F64F中的部分范围

Emoji字符的特殊之处在于,其使用的Unicode字符超出了通常使用的三字节UTF-8编码的Unicode范围,即BMP范围U+0000U+FFFF。按照UTF-8编码规范,Emoji字符属于辅助平面范围,通常对应4字节的UTF-8编码。

hive sql正则替换Emoji字符

select regexp_replace('abch🤫 🤔 🤐 ij', '[^\u0000-\uFFFF]', '');

posted @ 2024-02-27 08:45  阿灿呀  阅读(1152)  评论(0)    收藏  举报