数据结构之串
串
一、定义
串是由零个或多个字符组成的有限序列,又叫字符串。和栈、队列一样,既有链式存储也有连续存储,但总的来说,在串这里连续存储优于链式存储,因此我们大都只讨论连续存储。由此我们可知,这里连续存储就和我们熟知的char类型数组一样了。
二、串的操作
栈、队列中更多的是关注单个元素的操作,比如查找一个元素,插入或删除一个元素。但串中更多的是查找子串位置、得到指定位置子串、替换子串等操作。接下来我将就查找子串位置来讨论KMP模式匹配算法,可以大大避免重复遍历的情况。
KPM模式匹配算法:

1.如上图所示总共完成了六次子串匹配,但是我们仔细观察可以发现第2步到第5步都是不需要的,因为从第一步就可知:
a与b,c,d,e都不同,而a,b,c,d,e有各自匹配主串,所以完全不需要再拿a与主串的b,c,d,e再次进行比较,而可以直接跳到a与主串f比较
那为什么a又要与f比较呢?你可以想想,如果f的位置为a,x也与a不匹配,但是子串的a却可以用f位置的a匹配。
所以只需要保留第1步和第6步就可以了,对子串而言,第一步不匹配的位置是第六个,即j=6,第六步不匹配的位置是第一个,即j=1。即j从六变成1.

2.如上图所示总共完成了四次子串匹配,和上面同样的理由,我们完全可以不需要第二步、第三步的比较。
但需要注意子串中有两个相同的”ab“,所以第四步的子串ab与主串ab的比较也完全不需要了。
从中我们可以看到最子串而言,第一次不匹配的地方是j=6,第四次不匹配的地方是j=3.
简单来说,就是让子串从第二个相同部分尾巴开始比较。
3. 从而我们得出规律,我们得知对子串的首字符和后面字符进行比较,发现如果有相等字符,j值的变化就会不同。因此,我们可以得出规律,j值的大小取决于当前字符之前的串的前后缀的相似度。
最终我们得知,要想更高效匹配子串,可以先对子串进行分析,把T串各个位置j值的变化定义为一个数组next,然后利用子串j值进行匹配。
寻找next数组方法例子如下:


三、KMP模式匹配算法程序
/* 通过计算返回子串T的next数组。 */ void get_next(String T, int *next) { int i,k; i=1; k=0; next[1]=0; while (i<T[0]) /* 此处T[0]表示串T的长度 */ { if(k==0 || T[i]== T[k]) { ++i; ++k; next[i] = k; } else { k= next[k]; /* 若字符不相同,则k值回溯 */ } } } /* 返回子串T在主串S中第pos个字符之后的位置。若不存在,则函数返回值为0。 */ /* T非空,1≤pos≤StrLength(S)。 */ int Index_KMP(String S, String T, int pos) { int i = pos; /* i用于主串S中当前位置下标值,若pos不为1,则从pos位置开始匹配 */ int j = 1; /* j用于子串T中当前位置下标值 */ int next[255]; /* 定义一next数组 */ get_next(T, next); /* 对串T作分析,得到next数组 */ while (i <= S[0] && j <= T[0]) /* 若i小于S的长度并且j小于T的长度时,循环继续 */ { if (j==0 || S[i] == T[j]) /* 两字母相等则继续,与朴素算法增加了j=0判断 */ { ++i; ++j; } else /* 指针后退重新开始匹配 */ j = next[j];/* j退回合适的位置,i值不变 */ } if (j > T[0]) return i-T[0]; else return 0; }
四、KPM模式匹配改良算法
对于子串”aaaax“而言,next为”012345“,与主串”aaaabcde“对比可能会涉及到

容易见得,2,3,4,5完全就不需要。这时可以直接让next[2,3,4]用next[1]替换掉,变成000005
所以我们只需要改良获得next数组的程序算法即可。
/* 求模式串T的next函数修正值并存入数组nextval */ void get_nextval(String T, int *nextval) { int i,k; i=1; k=0; nextval[1]=0; while (i<T[0]) /* 此处T[0]表示串T的长度 */ { if(k==0 || T[i]== T[k]) /* T[i]表示后缀的单个字符,T[k]表示前缀的单个字符 */ { ++i; ++k; if (T[i]!=T[k]) /* 若当前字符与前缀字符不同 */ nextval[i] = k; /* 则当前的j为nextval在i位置的值 */ else nextval[i] = nextval[k]; /* 如果与前缀字符相同,则将前缀字符的 */ /* nextval值赋值给nextval在i位置的值 */ } else k= nextval[k]; /* 若字符不相同,则k值回溯 */ } }
五、总结
一言以蔽之,就是让主串不动,子串动,而每次子串匹配完都让子串从第二个相似地方后的第一个不匹配的j开始又和主串匹配。

浙公网安备 33010602011771号