正则的汉字匹配问题

/[U+4E00–U+9FA5]/

这是我们平时最常用的汉字匹配正则表达式,Unicode1.0 收录了 U+4E00–U+9FA5 范围内的文字,共计 20902 个汉字,但问题是这是 1993 年发布的,至今已经过去将近 30 年时间,这中间也已经加入了相当多的汉字。

历史

1993 年,Unicode1.0,/[U+4E00–U+9FA5]/,更新 20902

2000 年,Unicode3.0,扩展 A 区,更新 6592

2001 年,Unicode3.1,扩展 B 区,更新 42717

2003 第一、四、五、六修订,Unicode5.2,扩展 C 区及其他汉字,更新 4149

2010 年,Unicode6.0,扩展 D 区,更新 222

2015 年,Unicode8.0,扩展 E 区,更新 5762

2017 年,Unicode10.0,扩展 F 区,更新 7473

2020 年,Unicode13.0,扩展 G 区,更新 4939

Unified_Ideograph

中日韩统一表意文字。为了统一简体中文,繁体中文,日本,韩文,越南文等文字,在 Unicode 标准中赋予统一编码。

/\p{Unified_Ideograph}/u

\p{}表示根据 Unicode 属性值进行匹配

u 代表任何 Unicode 值都将被转译

参考:

[中日韓統一表意文字 - 维基百科,自由的百科全书](https://zh.wikipedia.org/wiki/中日韓統一表意文字)

https://github.com/tc39/proposal-regexp-unicode-property-escapes

posted @ 2025-11-17 18:29  jinzhepro  阅读(15)  评论(0)    收藏  举报