勤能補(bǔ)拙，Expter

成都游戲Coder，記錄游戲開(kāi)發(fā)過(guò)程的筆記和心得！

導(dǎo)航

<

2008年12月

>

日

一

二

三

四

五

六

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

統(tǒng)計(jì)

隨筆 - 67
文章 - 1
評(píng)論 - 209
引用 - 0

留言簿(18)

隨筆分類

隨筆檔案

文章檔案

2008年10月 (1)

收藏夾

書庫(kù)(2) (rss)

程序人生

經(jīng)常去的論壇

csdn
vcbase
軍事網(wǎng)
sina軍事網(wǎng)

曾經(jīng)ACM

sicheng
wlgwstc
zzningxp大牛
百度f(wàn)m
百度f(wàn)m
中科院博士

積分與排名

積分 - 193760
排名 - 137

閱讀排行榜

評(píng)論排行榜

KMP 算法筆記

KMP算法是查詢子串比較快的一種算法！

我們先看普通的模式匹配算法。。

int Index(String S,String T,int pos)//參考《數(shù)據(jù)結(jié)構(gòu)》中的程序
{
  i=pos;j=1;//這里的串的第1個(gè)元素下標(biāo)是1
  while(i<=S.Length && j<=T.Length)
  {
    if(S[i]==T[j]){++i;++j;}
    else{i=i-j+2;j=1;}//**************(1)
  }
  if(j>T.Length) return i-T.Length;//匹配成功
  else return 0;
}

匹配的過(guò)程非常清晰，關(guān)鍵是當(dāng)‘失配’的時(shí)候進(jìn)行回溯！

看下面的例子：

S:aaaaabababcaaa T:ababc

aaaaabababcaaa
    ababc.(.表示前一個(gè)已經(jīng)失配)
回溯的結(jié)果就是
aaaaabababcaaa
     a.(babc)
如果不回溯就是
aaaaabababcaaa
        aba.bc
這樣就漏了一個(gè)可能匹配成功的情況
aaaaabababcaaa
      ababc

為什么會(huì)發(fā)生這樣的情況？這是由T串本身的性質(zhì)決定的，是因?yàn)門串本身有前后'部分匹配'的性質(zhì)。如果T為abcdef這樣的，大沒(méi)有回溯的必要。

改進(jìn)的地方也就是這里，我們從T串本身出發(fā)，事先就找準(zhǔn)了T自身前后部分匹配的位置，那就可以改進(jìn)算法。

如果不用回溯，那T串下一個(gè)位置從哪里開(kāi)始呢？

還是上面那個(gè)例子，T為ababc，如果c失配，那就可以往前移到aba最后一個(gè)a的位置，像這樣：
...ababd...
ababc
->ababc

這樣i不用回溯，j跳到前2個(gè)位置，繼續(xù)匹配的過(guò)程，這就是KMP算法所在。這個(gè)當(dāng)T[j]失配后，j應(yīng)該往前跳的值就是j的next值，它是由T串本身固有決定的，與S串無(wú)關(guān)。

《數(shù)據(jù)結(jié)構(gòu)》上給了next值的定義：
0 如果j=1
next[j]={Max{k|1<k<j且'p1

pk-1'='pj-k+1

pj-1'
1 其它情況

我當(dāng)初看到這個(gè)頭就暈了，其實(shí)它就是描述的我前面表述的情況，關(guān)于next[1]=0是規(guī)定的，這樣規(guī)定可以使程序簡(jiǎn)單一些，如果非要定為其它的值只要不和后面的值沖突也是可以的；而那個(gè)Max是什么意思，舉個(gè)例子：

T:aaab

...aaaab...
   aaab
->aaab
   ->aaab
    ->aaab

像這樣的T，前面自身部分匹配的部分不止兩個(gè)，那應(yīng)該往前跳到第幾個(gè)呢？最近的一個(gè)，也就是說(shuō)盡可能的向右滑移最短的長(zhǎng)度。

OK，了解到這里，就看清了KMP的大部分內(nèi)容，然后關(guān)鍵的問(wèn)題是如何求next值？先不管它，先看如何用它來(lái)進(jìn)行匹配操作，也就是說(shuō)先假設(shè)已經(jīng)有了next值。

將最前面的程序改寫成：

int Index_KMP(String S,String T,int pos)
{
  i=pos;j=1;//這里的串的第1個(gè)元素下標(biāo)是1
  while(i<=S.Length && j<=T.Length)
  {
    if(j==0 || S[i]==T[j]){++i;++j;} //注意到這里的j==0,和++j的作用就知道為什么規(guī)定next[1]=0的好處了
    else j=next[j];//i不變（不回溯）,j跳動(dòng)
  }
  if(j>T.Length) return i-T.Length;//匹配成功
  else return 0;
}

OK,是不是非常簡(jiǎn)單？還有更簡(jiǎn)單的，求next值，這也是整個(gè)算法成功的關(guān)鍵，從next值的定義來(lái)求太恐怖了，怎么求？前面說(shuō)過(guò)了，next值表達(dá)的就是T串的自身部分匹配的性質(zhì)，那么，我只要將T串和T串自身來(lái)一次匹配就可以求出來(lái)了，這里的匹配過(guò)程不是從頭一個(gè)一個(gè)匹配，而是從T[1]和T [2]開(kāi)始匹配，給出算法如下：

void get_next(String T,int &next[])
{
  i=1;j=0;next[1]=0;
  while(i<=T.Length)
  {
    if(j==0 || T[i]==T[j]){++i;++j; next[i]=j;/**********(2)*/}
    else j=next[j];
  }
}

注意到(2)語(yǔ)句邏輯覆蓋的時(shí)候是T[i]==T[j]以及i前面的、j前面的都匹配的情況下，于是先自增，然后記下來(lái)next[i]=j，這樣每當(dāng)i有自增就會(huì)求得一個(gè)next[i]，而j一定會(huì)小于等于i，于是對(duì)于已經(jīng)求出來(lái)的next，可以繼續(xù)求后面的next，而next[1]=0是已知，所以整個(gè)就這樣遞推的求出來(lái)了，方法非常巧妙。

posted on 2008-12-06 10:23 expter 閱讀(268) 評(píng)論(0) 編輯收藏引用所屬分類: 其他學(xué)習(xí)筆記、算法與數(shù)據(jù)結(jié)構(gòu)

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
【推薦】100%開(kāi)源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: 根據(jù)子類類型訪問(wèn)其特有操作針對(duì)一個(gè)內(nèi)存池測(cè)試相關(guān)介紹一個(gè)關(guān)于容器選取的刪除問(wèn)題。在CEGUI顯示GIF圖像，簡(jiǎn)單的聊天窗口實(shí)現(xiàn)方式. 基于CEGUI的StaticText的超級(jí)鏈接實(shí)現(xiàn) 一個(gè)基于足球AI仿真機(jī)的模擬實(shí)現(xiàn) 基于策略的一種高效內(nèi)存池的實(shí)現(xiàn) 一個(gè)小型的IOCP網(wǎng)絡(luò)庫(kù) 一個(gè)字典生成算法幾種解法: 一個(gè)問(wèn)題，如何優(yōu)化？是否有高效的算法

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問(wèn) Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

勤能補(bǔ)拙，Expter

導(dǎo)航

統(tǒng)計(jì)

留言簿(18)

隨筆分類

隨筆檔案

文章檔案

收藏夾

程序人生

經(jīng)常去的論壇

曾經(jīng)ACM

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

KMP 算法筆記

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

勤能補(bǔ)拙，Expter

導(dǎo)航

統(tǒng)計(jì)

留言簿(18)

隨筆分類

隨筆檔案

文章檔案

收藏夾

程序人生

經(jīng)常去的論壇

曾經(jīng)ACM

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

KMP 算法筆記

勤能補(bǔ)拙，Expter