正则的汉字匹配问题

/[U+4E00–U+9FA5]/

这是我们平时最常用的汉字匹配正则表达式，Unicode1.0 收录了 U+4E00–U+9FA5 范围内的文字，共计 20902 个汉字，但问题是这是 1993 年发布的，至今已经过去将近 30 年时间，这中间也已经加入了相当多的汉字。

1993 年，Unicode1.0，/[U+4E00–U+9FA5]/，更新 20902

2000 年，Unicode3.0，扩展 A 区，更新 6592

2001 年，Unicode3.1，扩展 B 区，更新 42717

2003 第一、四、五、六修订，Unicode5.2，扩展 C 区及其他汉字，更新 4149

2010 年，Unicode6.0，扩展 D 区，更新 222

2015 年，Unicode8.0，扩展 E 区，更新 5762

2017 年，Unicode10.0，扩展 F 区，更新 7473

2020 年，Unicode13.0，扩展 G 区，更新 4939

中日韩统一表意文字。为了统一简体中文，繁体中文，日本，韩文，越南文等文字，在 Unicode 标准中赋予统一编码。

/\p{Unified_Ideograph}/u

\p{}表示根据 Unicode 属性值进行匹配

u 代表任何 Unicode 值都将被转译

参考：

posted @ 2025-11-17 18:29 jinzhepro 阅读(15) 评论(0) 收藏举报

刷新页面返回顶部