算法分析:
其實(shí)說到底非常簡單,就是在一堆數(shù)里隨便拿一個數(shù),再找一個與它不相等的,然后一起扔掉,這樣問題規(guī)模不斷縮小,最終等到找不到一個不相等的數(shù)時,就成功 了。但要簡化算法,就不能每拿一個數(shù)就統(tǒng)統(tǒng)找一遍。可以考慮準(zhǔn)備一個隊(duì)列,隊(duì)列里放著暫時扔不掉的數(shù)。如從頭開始,將a[0]放入隊(duì)列,再看a[1],如 果a[0] != a[1],則扔掉a[1]和a[0],a[0]從隊(duì)列取出;如果a[0] == a[1],則a[1]入隊(duì)列,然后a[2]進(jìn)行相同的操作,以此類推。
解法依然可以優(yōu)化。顯而易見,隊(duì)列里所有的數(shù)總是全部相等的,既然相等就沒有必要存入隊(duì)列,只要知道:1.假想的隊(duì)列里的數(shù)什么 2.隊(duì)列的長度。
這樣就得到了《編程之美》中的代碼了:
應(yīng)用:
代碼看似簡單,但我感到意猶未盡,正回味著,突然想到一個問題:如果條件(存在一個出現(xiàn)頻率超過一半的數(shù))不滿足,那會出現(xiàn)什么情況?如何避免呢?
很顯然,我們的解法就是基于這樣一個條件的,一旦條件不滿足,得到的數(shù)就沒有任何意義。但不難發(fā)現(xiàn),避免問題的出現(xiàn)也非常簡單:驗(yàn)證找到的數(shù)是否出現(xiàn)頻率超過一半。
這也是個常用的方法:假設(shè)檢驗(yàn)法。
對于一個數(shù)組,假設(shè)存在一個數(shù),它出現(xiàn)頻率超過一半。然后在O(n)時間內(nèi)找到這個數(shù),再統(tǒng)計(jì)它出現(xiàn)的頻率。這樣就完美了!
于是可以得到一個同解的跳躍式問題:檢查一個數(shù)組中,是否存在一個數(shù),它出現(xiàn)頻率超過一半。
Aho-Corasick算法可以在文本串中識別一組關(guān)鍵字,所需時間和文本長度以及所有關(guān)鍵字的總長度成正比。該算法使用了一種稱為“trie”的特殊形式的狀態(tài)裝換圖。Trie是一個樹形結(jié)構(gòu)的狀態(tài)裝換圖,從一個結(jié)點(diǎn)到它的各個子結(jié)點(diǎn)的邊上有不同的標(biāo)號。Trie的葉子結(jié)點(diǎn)表示識別到的關(guān)鍵字。
在這里,將著重討論算法的實(shí)現(xiàn)。算法包含兩個部分,一是經(jīng)典的KMP算法,二是KMP的擴(kuò)展算法Aho-Corasick算法。前者實(shí)現(xiàn)單關(guān)鍵字的模式匹配,后者實(shí)現(xiàn)多關(guān)鍵字的匹配。(參考龍書詞法分析部分內(nèi)容)
【源代碼:http://m.shnenglu.com/Files/yefeng/ACKMP.rar(vc9.0下測試通過) 】
對模式串定義失效函數(shù)f:x->y,x,y in S,描述狀態(tài)轉(zhuǎn)移,f(s)表示在狀態(tài)s處,當(dāng)下一個字符不是bs時轉(zhuǎn)向狀態(tài)f(s)繼續(xù)匹配。因此設(shè)置f(s)成為關(guān)鍵問題。
f(s)的存在其實(shí)主要是為了消除回溯。細(xì)節(jié)就不再多說了,這里只從原理上簡單說明。
設(shè)模式串為W,用文法描述,U、V表示W(wǎng)的一部分,w表示一個字符:
W -> UwV,
當(dāng)U識別完成后,進(jìn)入狀態(tài)s,識別w時,發(fā)現(xiàn)到來的字符不等于w,則需要轉(zhuǎn)向狀態(tài)f(s),f(s)到哪里去找呢?
那就要看U是什么樣子了。不管什么情況,只要U非空串,總可以表示成:
U -> uXu,或 U -> u,或U-> uXx,(x != u)
可以發(fā)現(xiàn),前綴u是,如果后綴也是u,意味著主串中u已經(jīng)被識別,如果還從模式串頭匹配u無疑是多余的,所以f(s)應(yīng)該是識別前綴u后進(jìn)入的狀態(tài)。然后再匹配下一個字符。而滿足條件的u可能會有多個,所以總是選擇最長的那個。偽代碼如下:
到此為止,應(yīng)該算是可以結(jié)束KMP了,但實(shí)際情況下還可以對f函數(shù)進(jìn)行優(yōu)化。很多書本上描述的next數(shù)組就可以從f函數(shù)推導(dǎo)過來。
其實(shí)也顯然,設(shè)狀態(tài)s接收字符w,當(dāng)與輸入字符c不等于c時,轉(zhuǎn)向狀態(tài)t,倘若t狀態(tài)也只接收字符w,顯然再次比較w與c是多余的,之后必然再次轉(zhuǎn)向狀態(tài)f(t)。在運(yùn)行的時候,這些狀態(tài)轉(zhuǎn)換時沒有意義的,可以在構(gòu)造f之后,直接將f(s)設(shè)置為f(t)提高運(yùn)行效率(不過此時f函數(shù)的意義已經(jīng)不同了)。f優(yōu)化如下:
Aho和Corasick對KMP算法進(jìn)行了推廣,使它可以在一個文本串識別一個關(guān)鍵字集合中的任何關(guān)鍵字。在這種情況下,trie是一棵真正的樹,從其根結(jié)點(diǎn)開始就會出現(xiàn)分支。如果一個字符串是某個關(guān)鍵字的前綴,那么在trie中就又一個和該字符串對應(yīng)的狀態(tài)。如關(guān)鍵字集合{he,she,his,hers},trie樹如下:
類似的,仍然構(gòu)造類似KMP算法中那樣的實(shí)效函數(shù)。對于上面的例子,失效函數(shù)如下:
s |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
f(s) |
-1 |
0 |
0 |
0 |
1 |
2 |
0 |
3 |
0 |
3 |
類似KMP算法,同樣采用實(shí)效實(shí)效函數(shù)推進(jìn)的方法,假設(shè)當(dāng)前狀態(tài)為s,s的一個孩子結(jié)點(diǎn)的根結(jié)點(diǎn)根節(jié)點(diǎn)t狀態(tài),如果當(dāng)前的失效函數(shù)已知為f(s),則顯然地,f(t)必定是f(s)的孩子結(jié)點(diǎn)狀態(tài),所要做的就是在狀態(tài)f(s)處尋找接受字符同s->t下一個狀態(tài),如果能找到,那就是f(t),否則說明到s處匹配串的前綴長度太長,需縮減,所以需要找到更短的后綴,于是就到f(s)處繼續(xù),如果仍然找不到,則轉(zhuǎn)到f(f(s))處,形成狀態(tài)的遞歸轉(zhuǎn)移。構(gòu)造中需要遍歷之前結(jié)點(diǎn)的所有孩子,所以需采用廣度優(yōu)先遍歷,偽代碼如下:
具體的構(gòu)造如下:
具體實(shí)現(xiàn)當(dāng)然需要用到樹形結(jié)構(gòu)了,顯然采用靜態(tài)鏈表應(yīng)該是最適合的,因?yàn)闃錁?gòu)造完就不需要改變,而且當(dāng)模式串比較多的時候可以減少內(nèi)存碎片。
每一個結(jié)點(diǎn)有5個域:接受字符,下一個兄弟結(jié)點(diǎn),第一個孩子結(jié)點(diǎn),失效函數(shù)值,結(jié)點(diǎn)狀態(tài)。
但是有一種特殊情況,如上面的第二個圖,在進(jìn)行匹配時,hers是永遠(yuǎn)不會被匹配,因?yàn)閔e總是先于hers被匹配。這里就不考慮在內(nèi)點(diǎn)狀態(tài)結(jié)束,這個問題暫時無法解決。于是可以做個特殊處理,只使用4個域,因?yàn)榇藭r匹配成功后狀態(tài)就到了葉子結(jié)點(diǎn),葉子結(jié)點(diǎn)不存在孩子域,這個域被浪費(fèi)了,這里就可以借用一下,比如此域值為x,當(dāng)x<0時,使用x xor 0x80000000表示識別到的模式串編號。
另一個棘手的問題是結(jié)點(diǎn)個數(shù)問題,這個數(shù)組到底多大?如何確定?
可以使用分值算法計(jì)算,先把模式串按字典順序排好序,設(shè)想n個排好序的模式串第i位排在一起,相同字符的組成一組,如AiBi…Xi,再把每組下一個字符,也就是第i+1位排在一起,相同字符的組成一組,如A’iB’I…X’i,以此遞歸運(yùn)算。偽代碼如下:
水平有限,程序缺點(diǎn)很多,很多問題都沒有解決。
1.如果存在兩個模式串,一個是另一個的子串,那么后者將無法被匹配。
2.無法處理動態(tài)決定大小寫敏感性
3.不夠完整,只能向后匹配