學(xué)以致用-專注于流媒體與網(wǎng)絡(luò)編程開發(fā)
細(xì)微決定成敗

隨筆 - 5 文章 - 2 trackbacks - 0

2025年10月

>

日

一

二

三

四

五

六

28

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

There can be no Triumph without Loss,No Victory without Suffering,No Freedom without Sacrifice. All you have to decide is what to do with the time that is given to you. Get busy Living, or Get busy Dying?

常用鏈接

留言簿

隨筆分類(4)

隨筆檔案(5)

文章分類(88)

文章檔案(10)

Andriod

android chanllenge
android官網(wǎng)
Gtalk
mac os 界面元素
prividercontent

Language

english listen
雙語(yǔ)閱讀很好的網(wǎng)站提高英語(yǔ)翻譯能力
行業(yè)英語(yǔ)（推薦）
原版英語(yǔ)（推薦）

OpenCV&OpenSSLink

OpenCV中文網(wǎng)站
中文權(quán)威網(wǎng)站，處理圖形圖像

OpenSource

sourceforge代碼開源集合站
開源中國(guó)社區(qū)

Others

中文業(yè)界資訊站

Python&Ruby

python download&&doc

WP7

樂威手機(jī)開發(fā)者聯(lián)盟

WTL

搜索

閱讀排行榜

評(píng)論排行榜

KMP算法詳解（轉(zhuǎn)）

???

?? 如果機(jī)房馬上要關(guān)門了，或者你急著要和MM約會(huì)，請(qǐng)直接跳到第六個(gè)自然段。
我們這里說的KMP不是拿來放電影的（雖然我很喜歡這個(gè)軟件），而是一種算法。KMP算法是拿來處理字符串匹配的。換句話說，給你兩個(gè)字符串，你需要回答，B串是否是A串的子串（A串是否包含B串）。比如，字符串A="I'm matrix67"，字符串B="matrix"，我們就說B是A的子串。你可以委婉地問你的MM：“假如你要向你喜歡的人表白的話，我的名字是你的告白語(yǔ)中的子串嗎？”
????解決這類問題，通常我們的方法是枚舉從A串的什么位置起開始與B匹配，然后驗(yàn)證是否匹配。假如A串長(zhǎng)度為n，B串長(zhǎng)度為 m，那么這種方法的復(fù)雜度是O (mn)的。雖然很多時(shí)候復(fù)雜度達(dá)不到mn（驗(yàn)證時(shí)只看頭一兩個(gè)字母就發(fā)現(xiàn)不匹配了），但我們有許多“最壞情況”，比如，A= "aaaaaaaaaaaaaaaaaaaaaaaaaab"，B="aaaaaaaab"。我們將介紹的是一種最壞情況下O(n)的算法（這里假設(shè) m<=n），即傳說中的KMP算法。
????之所以叫做KMP，是因?yàn)檫@個(gè)算法是由Knuth、Morris、Pratt三個(gè)提出來的，取了這三個(gè)人的名字的頭一個(gè)字母。這時(shí)，或許你突然明白了AVL 樹為什么叫AVL，或者Bellman-Ford為什么中間是一杠不是一個(gè)點(diǎn)。有時(shí)一個(gè)東西有七八個(gè)人研究過，那怎么命名呢？通常這個(gè)東西干脆就不用人名字命名了，免得發(fā)生爭(zhēng)議，比如“3x+1問題”。扯遠(yuǎn)了。
????個(gè)人認(rèn)為KMP是最沒有必要講的東西，因?yàn)檫@個(gè)東西網(wǎng)上能找到很多資料。但網(wǎng)上的講法基本上都涉及到“移動(dòng)(shift)”、“Next函數(shù)”等概念，這非常容易產(chǎn)生誤解（至少一年半前我看這些資料學(xué)習(xí)KMP時(shí)就沒搞清楚）。在這里，我換一種方法來解釋KMP算法。

????假如，A="abababaababacb"，B="ababacb"，我們來看看KMP 是怎么工作的。我們用兩個(gè)指針i和j分別表示，A[i-j+ 1..i]與B[1..j]完全相等。也就是說，i是不斷增加的，隨著i的增加j相應(yīng)地變化，且j滿足以A[i]結(jié)尾的長(zhǎng)度為j的字符串正好匹配B串的前 j個(gè)字符（j當(dāng)然越大越好），現(xiàn)在需要檢驗(yàn)A[i+1]和B[j+1]的關(guān)系。當(dāng)A[i+1]=B[j+1]時(shí)，i和j各加一；什么時(shí)候j=m了，我們就說B是A的子串（B串已經(jīng)整完了），并且可以根據(jù)這時(shí)的i值算出匹配的位置。當(dāng)A[i+1]<>B[j+1]，KMP的策略是調(diào)整j的位置（減小j值）使得A[i-j+1..i]與B[1..j]保持匹配且新的B[j+1]恰好與A[i+1]匹配（從而使得i和j能繼續(xù)增加）。我們看一看當(dāng) i=j=5時(shí)的情況。

????i = 1 2 3 4 5 6 7 8 9 ……
????A = a b a b a b a a b a b …
????B = a b a b a c b
????j = 1 2 3 4 5 6 7

????此時(shí)，A[6]<>B[6]。這表明，此時(shí)j不能等于5了，我們要把j改成比它小的值j'。j'可能是多少呢？仔細(xì)想一下，我們發(fā)現(xiàn)，j'必須要使得B[1..j]中的頭j'個(gè)字母和末j'個(gè)字母完全相等（這樣j變成了j'后才能繼續(xù)保持i和j的性質(zhì)）。這個(gè)j'當(dāng)然要越大越好。在這里，B [1..5]="ababa"，頭3個(gè)字母和末3個(gè)字母都是"aba"。而當(dāng)新的j為3時(shí)，A[6]恰好和B[4]相等。于是，i變成了6，而j則變成了 4：

????i = 1 2 3 4 5 6 7 8 9 ……
????A = a b a b a b a a b a b …
????B =???? a b a b a c b
????j =???? 1 2 3 4 5 6 7

????從上面的這個(gè)例子，我們可以看到，新的j可以取多少與i無關(guān)，只與B串有關(guān)。我們完全可以預(yù)處理出這樣一個(gè)數(shù)組P[j]，表示當(dāng)匹配到B數(shù)組的第j個(gè)字母而第j+1個(gè)字母不能匹配了時(shí)，新的j最大是多少。P[j]應(yīng)該是所有滿足B[1..P[j]]=B[j-P[j]+1..j]的最大值。
????再后來，A[7]=B[5]，i和j又各增加1。這時(shí)，又出現(xiàn)了A[i+1]<>B[j+1]的情況：

????i = 1 2 3 4 5 6 7 8 9 ……
????A = a b a b a b a a b a b …
????B =???? a b a b a c b
????j =???? 1 2 3 4 5 6 7

????由于P[5]=3，因此新的j=3：

????i = 1 2 3 4 5 6 7 8 9 ……
????A = a b a b a b a a b a b …
????B =???????? a b a b a c b
????j =???????? 1 2 3 4 5 6 7

????這時(shí)，新的j=3仍然不能滿足A[i+1]=B[j+1]，此時(shí)我們?cè)俅螠p小j值，將j再次更新為P[3]：

????i = 1 2 3 4 5 6 7 8 9 ……
????A = a b a b a b a a b a b …
????B =???????????? a b a b a c b
????j =???????????? 1 2 3 4 5 6 7

????現(xiàn)在，i還是7，j已經(jīng)變成1了。而此時(shí)A[8]居然仍然不等于B[j+1]。這樣，j必須減小到P[1]，即0：

????i = 1 2 3 4 5 6 7 8 9 ……
????A = a b a b a b a a b a b …
????B =?????????????? a b a b a c b
????j =???????????? 0 1 2 3 4 5 6 7

????終于，A[8]=B[1]，i變?yōu)?，j為1。事實(shí)上，有可能j到了0仍然不能滿足A[i+1]=B[j+1]（比如A[8]="d"時(shí)）。因此，準(zhǔn)確的說法是，當(dāng)j=0了時(shí)，我們?cè)黾觟值但忽略j直到出現(xiàn)A[i]=B[1]為止。
????這個(gè)過程的代碼很短（真的很短），我們?cè)谶@里給出：

j:=0;
for i:=1 to n do
begin
?? while (j>0) and (B[j+1]<>A[i]) do j:=P[j];
?? if B[j+1]=A[i] then j:=j+1;
?? if j=m then
?? begin
??????writeln('Pattern occurs with shift ',i-m);
??????j:=P[j];
?? end;
end;

????最后的j:=P[j]是為了讓程序繼續(xù)做下去，因?yàn)槲覀冇锌赡苷业蕉嗵幤ヅ洹?br />????這個(gè)程序或許比想像中的要簡(jiǎn)單，因?yàn)閷?duì)于i值的不斷增加，代碼用的是for循環(huán)。因此，這個(gè)代碼可以這樣形象地理解：掃描字符串A，并更新可以匹配到B的什么位置。

????現(xiàn)在，我們還遺留了兩個(gè)重要的問題：一，為什么這個(gè)程序是線性的；二，如何快速預(yù)處理P數(shù)組。
????為什么這個(gè)程序是O(n)的？其實(shí)，主要的爭(zhēng)議在于，while循環(huán)使得執(zhí)行次數(shù)出現(xiàn)了不確定因素。我們將用到時(shí)間復(fù)雜度的攤還分析中的主要策略，簡(jiǎn)單地說就是通過觀察某一個(gè)變量或函數(shù)值的變化來對(duì)零散的、雜亂的、不規(guī)則的執(zhí)行次數(shù)進(jìn)行累計(jì)。KMP的時(shí)間復(fù)雜度分析可謂攤還分析的典型。我們從上述程序的j 值入手。每一次執(zhí)行while循環(huán)都會(huì)使j減小（但不能減成負(fù)的），而另外的改變j值的地方只有第五行。每次執(zhí)行了這一行，j都只能加1；因此，整個(gè)過程中j最多加了n個(gè)1。于是，j最多只有n次減小的機(jī)會(huì)（j值減小的次數(shù)當(dāng)然不能超過n，因?yàn)閖永遠(yuǎn)是非負(fù)整數(shù)）。這告訴我們，while循環(huán)總共最多執(zhí)行了n次。按照攤還分析的說法，平攤到每次for循環(huán)中后，一次for循環(huán)的復(fù)雜度為O(1)。整個(gè)過程顯然是O(n)的。這樣的分析對(duì)于后面P數(shù)組預(yù)處理的過程同樣有效，同樣可以得到預(yù)處理過程的復(fù)雜度為O(m)。
????預(yù)處理不需要按照P的定義寫成O(m^2)甚至O(m^3)的。我們可以通過P[1],P[2],...,P[j-1]的值來獲得P[j]的值。對(duì)于剛才的B="ababacb"，假如我們已經(jīng)求出了 P[1],P[2],P[3]和P[4]，看看我們應(yīng)該怎么求出P[5]和P[6]。P[4]=2，那么P [5]顯然等于P[4]+1，因?yàn)橛蒔[4]可以知道，B[1,2]已經(jīng)和B[3,4]相等了，現(xiàn)在又有B[3]=B[5]，所以P[5]可以由P[4] 后面加一個(gè)字符得到。P[6]也等于P[5]+1嗎？顯然不是，因?yàn)锽[ P[5]+1 ]<>B[6]。那么，我們要考慮“退一步”了。我們考慮P[6]是否有可能由P[5]的情況所包含的子串得到，即是否P[6]=P[ P[5] ]+1。這里想不通的話可以仔細(xì)看一下：

????????1 2 3 4 5 6 7
????B = a b a b a c b
????P = 0 0 1 2 3 ?

????P[5]=3 是因?yàn)锽[1..3]和B[3..5]都是"aba"；而P[3]=1則告訴我們，B[1]、B[3]和B[5]都是"a"。既然P[6]不能由P[5] 得到，或許可以由P[3]得到（如果B[2]恰好和B[6]相等的話，P[6]就等于P[3]+1了）。顯然，P[6]也不能通過P[3]得到，因?yàn)? B[2]<>B[6]。事實(shí)上，這樣一直推到P[1]也不行，最后，我們得到，P[6]=0。
????怎么這個(gè)預(yù)處理過程跟前面的KMP主程序這么像呢？其實(shí)，KMP的預(yù)處理本身就是一個(gè)B串“自我匹配”的過程。它的代碼和上面的代碼神似：

P[1]:=0;
j:=0;
for i:=2 to m do
begin
?? while (j>0) and (B[j+1]<>B[i]) do j:=P[j];
?? if B[j+1]=B[i] then j:=j+1;
?? P[i]:=j;
end;

????最后補(bǔ)充一點(diǎn)：由于KMP算法只預(yù)處理B串，因此這種算法很適合這樣的問題：給定一個(gè)B串和一群不同的A串，問B是哪些A串的子串。

????串匹配是一個(gè)很有研究?jī)r(jià)值的問題。事實(shí)上，我們還有后綴樹，自動(dòng)機(jī)等很多方法，這些算法都巧妙地運(yùn)用了預(yù)處理，從而可以在線性的時(shí)間里解決字符串的匹配。我們以后來說。

????昨天發(fā)現(xiàn)一個(gè)特別暈的事，知道怎么去掉BitComet的廣告嗎？把界面語(yǔ)言設(shè)成英文就行了。
????還有，金山詞霸和Dr.eye都可以去自殺了，Babylon素王道。

posted on 2010-11-19 19:31 jemmyLiu 閱讀(251) 評(píng)論(0) 編輯收藏引用所屬分類: C++BASE

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
【推薦】100%開源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: 7bit 編解碼 KMP算法詳解（轉(zhuǎn)） C++字符串格式化符號(hào)

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品