数据结构之串

一、定义

  串是由零个或多个字符组成的有限序列,又叫字符串。和栈、队列一样,既有链式存储也有连续存储,但总的来说,在串这里连续存储优于链式存储,因此我们大都只讨论连续存储。由此我们可知,这里连续存储就和我们熟知的char类型数组一样了。

二、串的操作

  栈、队列中更多的是关注单个元素的操作,比如查找一个元素,插入或删除一个元素。但串中更多的是查找子串位置、得到指定位置子串、替换子串等操作。接下来我将就查找子串位置来讨论KMP模式匹配算法,可以大大避免重复遍历的情况。

KPM模式匹配算法:

  1.如上图所示总共完成了六次子串匹配,但是我们仔细观察可以发现第2步到第5步都是不需要的,因为从第一步就可知:

  a与b,c,d,e都不同,而a,b,c,d,e有各自匹配主串,所以完全不需要再拿a与主串的b,c,d,e再次进行比较,而可以直接跳到a与主串f比较

  那为什么a又要与f比较呢?你可以想想,如果f的位置为a,x也与a不匹配,但是子串的a却可以用f位置的a匹配。

  所以只需要保留第1步和第6步就可以了,对子串而言,第一步不匹配的位置是第六个,即j=6,第六步不匹配的位置是第一个,即j=1。即j从六变成1.


  2.如上图所示总共完成了四次子串匹配,和上面同样的理由,我们完全可以不需要第二步、第三步的比较。

  但需要注意子串中有两个相同的”ab“,所以第四步的子串ab与主串ab的比较也完全不需要了。

  从中我们可以看到最子串而言,第一次不匹配的地方是j=6,第四次不匹配的地方是j=3.

  简单来说,就是让子串从第二个相同部分尾巴开始比较。

  3. 从而我们得出规律,我们得知对子串的首字符和后面字符进行比较,发现如果有相等字符,j值的变化就会不同。因此,我们可以得出规律,j值的大小取决于当前字符之前的串的前后缀的相似度。

  最终我们得知,要想更高效匹配子串,可以先对子串进行分析,把T串各个位置j值的变化定义为一个数组next,然后利用子串j值进行匹配。

  寻找next数组方法例子如下:

  

 

三、KMP模式匹配算法程序

 

/* 通过计算返回子串T的next数组。 */
void get_next(String T, int *next) 
{
    int i,k;
      i=1;
      k=0;
      next[1]=0;
      while (i<T[0])  /* 此处T[0]表示串T的长度 */
     {
        if(k==0 || T[i]== T[k]) 
        {
              ++i;  
            ++k;  
            next[i] = k;

        } 
        else 
        {
            k= next[k];    /* 若字符不相同,则k值回溯 */

        }
      }
}

/* 返回子串T在主串S中第pos个字符之后的位置。若不存在,则函数返回值为0。 */
/*  T非空,1≤pos≤StrLength(S)。 */
int Index_KMP(String S, String T, int pos) 
{
    int i = pos;        /* i用于主串S中当前位置下标值,若pos不为1,则从pos位置开始匹配 */
    int j = 1;            /* j用于子串T中当前位置下标值 */
    int next[255];        /* 定义一next数组 */
    get_next(T, next);    /* 对串T作分析,得到next数组 */
    while (i <= S[0] && j <= T[0]) /* 若i小于S的长度并且j小于T的长度时,循环继续 */
    {
        if (j==0 || S[i] == T[j])     /* 两字母相等则继续,与朴素算法增加了j=0判断 */
          {
             ++i;
             ++j; 
          } 
          else             /* 指针后退重新开始匹配 */
               j = next[j];/* j退回合适的位置,i值不变 */
    }
    if (j > T[0]) 
        return i-T[0];
    else 
        return 0;
}

 

四、KPM模式匹配改良算法

  对于子串”aaaax“而言,next为”012345“,与主串”aaaabcde“对比可能会涉及到

  

   容易见得,2,3,4,5完全就不需要。这时可以直接让next[2,3,4]用next[1]替换掉,变成000005

  所以我们只需要改良获得next数组的程序算法即可。

/* 求模式串T的next函数修正值并存入数组nextval */
void get_nextval(String T, int *nextval) 
{
      int i,k;
      i=1;
      k=0;
      nextval[1]=0;
      while (i<T[0])  /* 此处T[0]表示串T的长度 */
     {
        if(k==0 || T[i]== T[k])     /* T[i]表示后缀的单个字符,T[k]表示前缀的单个字符 */
        {
              ++i;  
            ++k;  
            if (T[i]!=T[k])      /* 若当前字符与前缀字符不同 */
                nextval[i] = k;    /* 则当前的j为nextval在i位置的值 */
              else 
                nextval[i] = nextval[k];    /* 如果与前缀字符相同,则将前缀字符的 */
                                            /* nextval值赋值给nextval在i位置的值 */
        } 
        else 
            k= nextval[k];            /* 若字符不相同,则k值回溯 */
      }
}

五、总结

  一言以蔽之,就是让主串不动,子串动,而每次子串匹配完都让子串从第二个相似地方后的第一个不匹配的j开始又和主串匹配。

 

posted @ 2021-08-18 21:44  Pangenda  阅读(482)  评论(0)    收藏  举报