最近有个需求,要根据中文来获取汉语拼音的首字母。记得很早以前版主 chensqjlandzpa就给出过解决方法。不过这么简单的需求没有必要再去费劲找了,自己写一个就可以了。

介绍一下处理的思路,最简单的思路莫过于构造一个汉字库,手工为所有的汉字添加拼音,但是这种方法需要大量的人工录入工作,如果可以找到现成的字库倒是可以考虑。

那么能否利用 Oracle提供的现有功能来解决。首先想到的是 Oracle提供了 SOUNDEX函数:

SQL> SELECT SOUNDEX('WORD') FROM DUAL;

SOUN
----
W630

SQL> SELECT SOUNDEX(' ') FROM DUAL;

S
-

可惜的是,这个函数只对英文有效,对中文无效。看来只能使用其他的方法。

Oracle 对各个国家不同的语言进行了本地化的开发,这其中就包括排序方式。查询了一下 Oracle对于中文的排序支持,果然发现了对简体中文拼音的支持。

Oracle SCHINESE_PINYIN_M排序方式可以支持中文的拼音排序,下面简单看一下使用这个中文拼音排序的例子:

SQL> WITH A AS
2 (SELECT '
获取汉字拼音首字母 ' W FROM DUAL)
3 SELECT SUBSTR(W, ROWNUM, 1) FROM A
4 CONNECT BY ROWNUM <= (SELECT LENGTH(W) FROM A);

SU
--

已选择 9行。

下面加上 NLSSORT排序,并指定排序方法为 SCHINESE_PINYIN_M

SQL> WITH A AS
2 (SELECT '
获取汉字拼音首字母 ' W FROM DUAL)
3 SELECT SUBSTR(W, ROWNUM, 1) FROM A
4 CONNECT BY ROWNUM <= (SELECT LENGTH(W) FROM A)
5 ORDER BY NLSSORT(SUBSTR(W, ROWNUM, 1), 'NLS_SORT=SCHINESE_PINYIN_M');

SU
--

已选择 9行。

利用 Oracle的现成的排序方法,编写获取拼音首字母的函数就十分容易了,只需要找到每个首字母对应开头汉字和结尾汉字,根据这些边界汉字进行比较,就可以找到当前汉字的首字母信息。

SQL> WITH A AS
2 (
3 SELECT ROWNUM RN, CHR(ROWNUM) C FROM DUAL CONNECT BY LEVEL <= 65535
4 )
5 SELECT * FROM A WHERE LENGTHB(C) = 2
6 AND RN > 32768
7 AND NLSSORT(C, 'NLS_SORT=SCHINESE_PINYIN_M') > NLSSORT('
', 'NLS_SORT=SCHINESE_PINYIN_M')
8 AND NLSSORT(C, 'NLS_SORT=SCHINESE_PINYIN_M') < NLSSORT('
', 'NLS_SORT=SCHINESE_PINYIN_M')
9 ORDER BY NLSSORT(C, 'NLS_SORT=SCHINESE_PINYIN_M');

RN C
---------- --
54931

63179

62088

45259

33172

利用类似这样的方法,就可以分别找到每个首字母对应的字头和字尾。下面构建一个函数就十分容易了:

SQL> CREATE OR REPLACE FUNCTION F_PINYIN(P_NAME IN VARCHAR2) RETURN VARCHAR2 AS
2 V_COMPARE VARCHAR2(100);
3 V_RETURN VARCHAR2(4000);
4
5 FUNCTION F_NLSSORT(P_WORD IN VARCHAR2) RETURN VARCHAR2 AS
6 BEGIN
7 RETURN NLSSORT(P_WORD, 'NLS_SORT=SCHINESE_PINYIN_M');
8 END;
9 BEGIN
10
11 FOR I IN 1..LENGTH(P_NAME) LOOP
12 V_COMPARE := F_NLSSORT(SUBSTR(P_NAME, I, 1));
13 IF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT(' ') THEN
14 V_RETURN := V_RETURN || 'A';
15 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('簿
') THEN
16 V_RETURN := V_RETURN || 'B';
17 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
18 V_RETURN := V_RETURN || 'C';
19 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
20 V_RETURN := V_RETURN || 'D';
21 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
22 V_RETURN := V_RETURN || 'E';
23 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
24 V_RETURN := V_RETURN || 'F';
25 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
26 V_RETURN := V_RETURN || 'G';
27 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
28 V_RETURN := V_RETURN || 'H';
29 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
30 V_RETURN := V_RETURN || 'J';
31 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
32 V_RETURN := V_RETURN || 'K';
33 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
34 V_RETURN := V_RETURN || 'L';
35 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
36 V_RETURN := V_RETURN || 'M';
37 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
38 V_RETURN := V_RETURN || 'N';
39 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
40 V_RETURN := V_RETURN || 'O';
41 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
42 V_RETURN := V_RETURN || 'P';
43 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
44 V_RETURN := V_RETURN || 'Q';
45 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
46 V_RETURN := V_RETURN || 'R';
47 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
48 V_RETURN := V_RETURN || 'S';
49 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
50 V_RETURN := V_RETURN || 'T';
51 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
52 V_RETURN := V_RETURN || 'W';
53 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
54 V_RETURN := V_RETURN || 'X';
55 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
56 V_RETURN := V_RETURN || 'Y';
57 ELSIF V_COMPARE >= F_NLSSORT('
') AND V_COMPARE <= F_NLSSORT('
') THEN
58 V_RETURN := V_RETURN || 'Z';
59 END IF;
60 END LOOP;
61 RETURN V_RETURN;
62 END;
63 /

posted on 2012-06-01 15:38  lipeterzq  阅读(2923)  评论(0编辑  收藏  举报