• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            字符串(模式)匹配的KMP算法詳解【轉(zhuǎn)】

            模式匹配的KMP算法詳解

            這種由D.E.Knuth,J.H.Morris和V.R.Pratt同時(shí)發(fā)現(xiàn)的改進(jìn)的模式匹配算法簡稱為KMP算法。大概學(xué)過信息學(xué)的都知道,是個(gè)比較難理解的算法,今天特把它搞個(gè)徹徹底底明明白白。

            注意到這是一個(gè)改進(jìn)的算法,所以有必要把原來的模式匹配算法拿出來,其實(shí)理解的關(guān)鍵就在這里,一般的匹配算法:

            int Index(String S,String T,int pos)//參考《數(shù)據(jù)結(jié)構(gòu)》中的程序
            {
              i=pos;j=1;//這里的串的第1個(gè)元素下標(biāo)是1
              while(i<=S.Length && j<=T.Length)
              {
                if(S[i]==T[j]){++i;++j;}
                else{i=i-j+2;j=1;}//**************(1)
              }
              if(j>T.Length) return i-T.Length;//匹配成功
              else return 0;
            }

            匹配的過程非常清晰,關(guān)鍵是當(dāng)‘失配’的時(shí)候程序是如何處理的?回溯,沒錯(cuò),注意到(1)句,為什么要回溯,看下面的例子:

            S:aaaaabababcaaa  T:ababc

            aaaaabababcaaa
                ababc.(.表示前一個(gè)已經(jīng)失配)
            回溯的結(jié)果就是
            aaaaabababcaaa
                 a.(babc)
            如果不回溯就是
            aaaaabababcaaa
                    aba.bc
            這樣就漏了一個(gè)可能匹配成功的情況
            aaaaabababcaaa
                  ababc

            為什么會(huì)發(fā)生這樣的情況?這是由T串本身的性質(zhì)決定的,是因?yàn)門串本身有前后'部分匹配'的性質(zhì)。如果T為abcdef這樣的,大沒有回溯的必要。

            改進(jìn)的地方也就是這里,我們從T串本身出發(fā),事先就找準(zhǔn)了T自身前后部分匹配的位置,那就可以改進(jìn)算法。

            如果不用回溯,那T串下一個(gè)位置從哪里開始呢?

            還是上面那個(gè)例子,T為ababc,如果c失配,那就可以往前移到aba最后一個(gè)a的位置,像這樣:
            ...ababd...
               ababc
               ->ababc

            這樣i不用回溯,j跳到前2個(gè)位置,繼續(xù)匹配的過程,這就是KMP算法所在。這個(gè)當(dāng)T[j]失配后,j應(yīng)該往前跳的值就是j的next值,它是由T串本身固有決定的,與S串無關(guān)。

            《數(shù)據(jù)結(jié)構(gòu)》上給了next值的定義:
                      0   如果j=1
            next[j]={Max{k|1<k<j且'p1...pk-1'='pj-k+1...pj-1'
                      1   其它情況

            我當(dāng)初看到這個(gè)頭就暈了,其實(shí)它就是描述的我前面表述的情況,關(guān)于next[1]=0是規(guī)定的,這樣規(guī)定可以使程序簡單一些,如果非要定為其它的值只要不和后面的值沖突也是可以的;而那個(gè)Max是什么意思,舉個(gè)例子:

            T:aaab

            ...aaaab...
               aaab
              ->aaab
               ->aaab
                ->aaab

            像這樣的T,前面自身部分匹配的部分不止兩個(gè),那應(yīng)該往前跳到第幾個(gè)呢?最近的一個(gè),也就是說盡可能的向右滑移最短的長度。

            OK,了解到這里,就看清了KMP的大部分內(nèi)容,然后關(guān)鍵的問題是如何求next值?先不管它,先看如何用它來進(jìn)行匹配操作,也就是說先假設(shè)已經(jīng)有了next值。

            將最前面的程序改寫成:

            int Index_KMP(String S,String T,int pos)
            {
              i=pos;j=1;//這里的串的第1個(gè)元素下標(biāo)是1
              while(i<=S.Length && j<=T.Length)
              {
                if(j==0 || S[i]==T[j]){++i;++j;} //注意到這里的j==0,和++j的作用就知道為什么規(guī)定next[1]=0的好處了
                else j=next[j];//i不變(不回溯),j跳動(dòng)
              }
              if(j>T.Length) return i-T.Length;//匹配成功
              else return 0;
            }

            OK,是不是非常簡單?還有更簡單的,求next值,這也是整個(gè)算法成功的關(guān)鍵,從next值的定義來求太恐怖了,怎么求?前面說過了,next值表達(dá)的就是T串的自身部分匹配的性質(zhì),那么,我只要將T串和T串自身來一次匹配就可以求出來了,這里的匹配過程不是從頭一個(gè)一個(gè)匹配,而是從T[1]和T[2]開始匹配,給出算法如下:

            void get_next(String T,int &next[])
            {
              i=1;j=0;next[1]=0;
              while(i<=T.Length)
              {
                if(j==0 || T[i]==T[j]){++i;++j; next[i]=j;/**********(2)*/}
                else j=next[j];
              }
            }

            看這個(gè)函數(shù)是不是非常像KMP匹配的函數(shù),沒錯(cuò),它就是這么干的!注意到(2)語句邏輯覆蓋的時(shí)候是T[i]==T[j]以及i前面的、j前面的都匹配的情況下,于是先自增,然后記下來next[i]=j,這樣每當(dāng)i有自增就會(huì)求得一個(gè)next[i],而j一定會(huì)小于等于i,于是對(duì)于已經(jīng)求出來的next,可以繼續(xù)求后面的next,而next[1]=0是已知,所以整個(gè)就這樣遞推的求出來了,方法非常巧妙。

            這樣的改進(jìn)已經(jīng)是很不錯(cuò)了,但算法還可以改進(jìn),注意到下面的匹配情況:

            ...aaac...
               aaaa.
            T串中的'a'和S串中的'c'失配,而'a'的next值指的還是'a',那同樣的比較還是會(huì)失配,而這樣的比較是多余的,如果我事先知道,當(dāng)T[i]==T[j],那next[i]就設(shè)為next[j],在求next值的時(shí)候就已經(jīng)比較了,這樣就可以去掉這樣的多余的比較。于是稍加改進(jìn)得到:

            void get_nextval(String T,int &next[])
            {
              i=1;j=0;next[1]=0;
              while(i<=T.Length)
              {
                if(j==0 || T[i]==T[j])
                { ++i;++j;
                  if(T[i]!=T[j]) next[i]=j;
                  else next[i]=next[j];//消去多余的可能的比較,next再向前跳
                }
                else j=next[j];
              }
            }

            匹配算法不變。

            到此就完全弄清楚了,以前老覺得KMP算法好神秘,真不是人想出來的,其實(shí)不然,它只不過是對(duì)原有的算法進(jìn)行了改進(jìn)。可見基礎(chǔ)的經(jīng)典的東西還是很重要,你有本事‘廢’了經(jīng)典,就創(chuàng)造了進(jìn)步。

            posted on 2010-10-28 10:08 oliver 閱讀(384) 評(píng)論(0)  編輯 收藏 引用 所屬分類: Algorithm

            <2025年7月>
            293012345
            6789101112
            13141516171819
            20212223242526
            272829303112
            3456789

            導(dǎo)航

            統(tǒng)計(jì)

            常用鏈接

            留言簿

            隨筆檔案

            文章分類

            文章檔案

            個(gè)人專欄

            技術(shù)網(wǎng)站

            搜索

            最新評(píng)論

            閱讀排行榜

            評(píng)論排行榜

            色综合久久久久久久久五月| 品成人欧美大片久久国产欧美...| 久久这里有精品视频| 久久青青草原精品国产不卡 | 国产精品久久久久蜜芽| 久久一日本道色综合久久| 久久国产精品国产自线拍免费| 国产999精品久久久久久| 久久免费看黄a级毛片| 亚洲国产成人久久综合碰碰动漫3d| 国产成人久久久精品二区三区| 久久SE精品一区二区| 免费国产99久久久香蕉| 久久精品国产2020| 久久久久亚洲av毛片大| 国内精品久久久久| 一本色道久久88—综合亚洲精品| 夜夜亚洲天天久久| 国产精品一久久香蕉产线看| 波多野结衣久久精品| 久久99亚洲综合精品首页| 91精品国产9l久久久久| 久久一日本道色综合久久| 国产精品亚洲综合久久| 久久国产成人| 国产激情久久久久影院| 精品久久久久久综合日本| 影音先锋女人AV鲁色资源网久久 | 国产午夜精品久久久久九九| 久久久一本精品99久久精品66| 久久久久久久国产免费看| 色偷偷888欧美精品久久久| 亚洲综合精品香蕉久久网97 | 97久久精品人妻人人搡人人玩| 久久天天躁夜夜躁狠狠| 午夜精品久久久久久影视riav| 久久久久久无码国产精品中文字幕 | 91精品国产高清久久久久久io| 久久精品国产久精国产一老狼| 久久国产成人| 久久久久久国产a免费观看不卡|