• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 4,  comments - 27,  trackbacks - 0

            Aho-Corasick算法實踐

            摘要:

                Aho-Corasick算法可以在文本串中識別一組關(guān)鍵字,所需時間和文本長度以及所有關(guān)鍵字的總長度成正比。該算法使用了一種稱為“trie”的特殊形式的狀態(tài)裝換圖。Trie是一個樹形結(jié)構(gòu)的狀態(tài)裝換圖,從一個結(jié)點到它的各個子結(jié)點的邊上有不同的標號。Trie的葉子結(jié)點表示識別到的關(guān)鍵字。

                在這里,將著重討論算法的實現(xiàn)。算法包含兩個部分,一是經(jīng)典的KMP算法,二是KMP的擴展算法Aho-Corasick算法。前者實現(xiàn)單關(guān)鍵字的模式匹配,后者實現(xiàn)多關(guān)鍵字的匹配。(參考龍書詞法分析部分內(nèi)容)

               【源代碼:http://m.shnenglu.com/Files/yefeng/ACKMP.rar(vc9.0下測試通過) 】

            一、經(jīng)典KMP算法

                當初,初學KMP算法時,總是通過反復的舉例去理解,沒有一種好的表達方式,而龍書描述這個算法使用了trie樹,也就是一個單鏈的狀態(tài)轉(zhuǎn)換圖。如模式b0b1...bn-1,trie樹如下:

                

                對模式串定義失效函數(shù)f:x->y,x,y in S,描述狀態(tài)轉(zhuǎn)移,f(s)表示在狀態(tài)s處,當下一個字符不是bs時轉(zhuǎn)向狀態(tài)f(s)繼續(xù)匹配。因此設置f(s)成為關(guān)鍵問題。

                f(s)的存在其實主要是為了消除回溯。細節(jié)就不再多說了,這里只從原理上簡單說明。

                設模式串為W,用文法描述,U、V表示W(wǎng)的一部分,w表示一個字符:

                W -> UwV,

                當U識別完成后,進入狀態(tài)s,識別w時,發(fā)現(xiàn)到來的字符不等于w,則需要轉(zhuǎn)向狀態(tài)f(s),f(s)到哪里去找呢?

                那就要看U是什么樣子了。不管什么情況,只要U非空串,總可以表示成:

                   U -> uXu,或 U -> u,或U-> uXx,(x != u)

                可以發(fā)現(xiàn),前綴u是,如果后綴也是u,意味著主串中u已經(jīng)被識別,如果還從模式串頭匹配u無疑是多余的,所以f(s)應該是識別前綴u后進入的狀態(tài)。然后再匹配下一個字符。而滿足條件的u可能會有多個,所以總是選擇最長的那個。偽代碼如下:

               

                到此為止,應該算是可以結(jié)束KMP了,但實際情況下還可以對f函數(shù)進行優(yōu)化。很多書本上描述的next數(shù)組就可以從f函數(shù)推導過來。

                其實也顯然,設狀態(tài)s接收字符w,當與輸入字符c不等于c時,轉(zhuǎn)向狀態(tài)t,倘若t狀態(tài)也只接收字符w,顯然再次比較w與c是多余的,之后必然再次轉(zhuǎn)向狀態(tài)f(t)。在運行的時候,這些狀態(tài)轉(zhuǎn)換時沒有意義的,可以在構(gòu)造f之后,直接將f(s)設置為f(t)提高運行效率(不過此時f函數(shù)的意義已經(jīng)不同了)。f優(yōu)化如下:

               

            二、多關(guān)鍵字匹配與Aho-Corasick算法

                Aho和Corasick對KMP算法進行了推廣,使它可以在一個文本串識別一個關(guān)鍵字集合中的任何關(guān)鍵字。在這種情況下,trie是一棵真正的樹,從其根結(jié)點開始就會出現(xiàn)分支。如果一個字符串是某個關(guān)鍵字的前綴,那么在trie中就又一個和該字符串對應的狀態(tài)。如關(guān)鍵字集合{he,she,his,hers},trie樹如下:

               

               

                類似的,仍然構(gòu)造類似KMP算法中那樣的實效函數(shù)。對于上面的例子,失效函數(shù)如下:

            s

            0

            1

            2

            3

            4

            5

            6

            7

            8

            9

            f(s)

            -1

            0

            0

            0

            1

            2

            0

            3

            0

            3


              1.構(gòu)造失效函數(shù)

                類似KMP算法,同樣采用實效實效函數(shù)推進的方法,假設當前狀態(tài)為s,s的一個孩子結(jié)點的根結(jié)點根節(jié)點t狀態(tài),如果當前的失效函數(shù)已知為f(s),則顯然地,f(t)必定是f(s)的孩子結(jié)點狀態(tài),所要做的就是在狀態(tài)f(s)處尋找接受字符同s->t下一個狀態(tài),如果能找到,那就是f(t),否則說明到s處匹配串的前綴長度太長,需縮減,所以需要找到更短的后綴,于是就到f(s)處繼續(xù),如果仍然找不到,則轉(zhuǎn)到f(f(s))處,形成狀態(tài)的遞歸轉(zhuǎn)移。構(gòu)造中需要遍歷之前結(jié)點的所有孩子,所以需采用廣度優(yōu)先遍歷,偽代碼如下:

               

                具體的構(gòu)造如下:

               

              2.構(gòu)造Trie樹

                具體實現(xiàn)當然需要用到樹形結(jié)構(gòu)了,顯然采用靜態(tài)鏈表應該是最適合的,因為樹構(gòu)造完就不需要改變,而且當模式串比較多的時候可以減少內(nèi)存碎片。

                每一個結(jié)點有5個域:接受字符,下一個兄弟結(jié)點,第一個孩子結(jié)點,失效函數(shù)值,結(jié)點狀態(tài)。

            但是有一種特殊情況,如上面的第二個圖,在進行匹配時,hers是永遠不會被匹配,因為he總是先于hers被匹配。這里就不考慮在內(nèi)點狀態(tài)結(jié)束,這個問題暫時無法解決。于是可以做個特殊處理,只使用4個域,因為此時匹配成功后狀態(tài)就到了葉子結(jié)點,葉子結(jié)點不存在孩子域,這個域被浪費了,這里就可以借用一下,比如此域值為x,當x<0時,使用x xor 0x80000000表示識別到的模式串編號。

                另一個棘手的問題是結(jié)點個數(shù)問題,這個數(shù)組到底多大?如何確定?

                可以使用分值算法計算,先把模式串按字典順序排好序,設想n個排好序的模式串第i位排在一起,相同字符的組成一組,如AiBi…Xi,再把每組下一個字符,也就是第i+1位排在一起,相同字符的組成一組,如A’iB’I…X’i,以此遞歸運算。偽代碼如下:

                

              3.缺點

                水平有限,程序缺點很多,很多問題都沒有解決。

                1.如果存在兩個模式串,一個是另一個的子串,那么后者將無法被匹配。

                2.無法處理動態(tài)決定大小寫敏感性

                3.不夠完整,只能向后匹配

            posted on 2009-12-06 22:51 夜風 閱讀(6329) 評論(1)  編輯 收藏 引用 所屬分類: C/C++技術(shù)編譯技術(shù)算法

            FeedBack:
            # re: Aho-Corasick算法實踐
            2014-05-12 10:10 | Ring
            請問一下關(guān)于Aho-Corasick算法里面的失效函數(shù)。為什么節(jié)點9的失效函數(shù)為3呢?
            看編譯原理定義此失效函數(shù)的定義為:假設S是對應串b1b2...bn的狀態(tài),那么狀態(tài)f(s)對應于最長的即是串b1b2...bn的后綴又是某個關(guān)鍵字的前綴的字符串。  回復  更多評論
              
            <2025年6月>
            25262728293031
            1234567
            891011121314
            15161718192021
            22232425262728
            293012345

            常用鏈接

            留言簿(1)

            隨筆分類(7)

            隨筆檔案(4)

            文章分類

            最新評論

            閱讀排行榜

            評論排行榜

            久久国产香蕉一区精品| 午夜精品久久久久久久无码| 无码人妻少妇久久中文字幕蜜桃| 一级女性全黄久久生活片免费 | 亚洲精品蜜桃久久久久久| 久久免费视频一区| 国产精品美女久久久久网| 狠狠色丁香婷婷久久综合五月| 久久精品国产福利国产琪琪| 久久毛片免费看一区二区三区| 青青草原综合久久大伊人| 久久天天躁狠狠躁夜夜躁2O2O| 99久久精品国产免看国产一区| 国产三级精品久久| 久久精品国产亚洲AV忘忧草18| 久久九九全国免费| 久久九九兔免费精品6| 国产激情久久久久影院老熟女免费| 欧美日韩成人精品久久久免费看| 欧美va久久久噜噜噜久久| 精品久久久无码中文字幕| 亚洲午夜久久久久久久久电影网| 久久综合久久综合九色| 亚洲国产精品成人久久| 性做久久久久久久久| 51久久夜色精品国产| 天堂久久天堂AV色综合| 一本色道久久综合| 怡红院日本一道日本久久| 久久久精品国产| 无码任你躁久久久久久老妇| 精品久久一区二区三区| 婷婷久久香蕉五月综合加勒比| 久久久久亚洲AV无码专区首JN | 97久久超碰国产精品2021| 国产成人综合久久精品红| 亚洲AⅤ优女AV综合久久久| 久久se精品一区精品二区| 国产精品久久久久9999高清| 久久丫精品国产亚洲av| 五月丁香综合激情六月久久|