青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 4,  comments - 27,  trackbacks - 0

Aho-Corasick算法實(shí)踐

摘要:

    Aho-Corasick算法可以在文本串中識別一組關(guān)鍵字,所需時(shí)間和文本長度以及所有關(guān)鍵字的總長度成正比。該算法使用了一種稱為“trie”的特殊形式的狀態(tài)裝換圖。Trie是一個(gè)樹形結(jié)構(gòu)的狀態(tài)裝換圖,從一個(gè)結(jié)點(diǎn)到它的各個(gè)子結(jié)點(diǎn)的邊上有不同的標(biāo)號。Trie的葉子結(jié)點(diǎn)表示識別到的關(guān)鍵字。

    在這里,將著重討論算法的實(shí)現(xiàn)。算法包含兩個(gè)部分,一是經(jīng)典的KMP算法,二是KMP的擴(kuò)展算法Aho-Corasick算法。前者實(shí)現(xiàn)單關(guān)鍵字的模式匹配,后者實(shí)現(xiàn)多關(guān)鍵字的匹配。(參考龍書詞法分析部分內(nèi)容)

   【源代碼:http://m.shnenglu.com/Files/yefeng/ACKMP.rar(vc9.0下測試通過) 】

一、經(jīng)典KMP算法

    當(dāng)初,初學(xué)KMP算法時(shí),總是通過反復(fù)的舉例去理解,沒有一種好的表達(dá)方式,而龍書描述這個(gè)算法使用了trie樹,也就是一個(gè)單鏈的狀態(tài)轉(zhuǎn)換圖。如模式b0b1...bn-1,trie樹如下:

    

    對模式串定義失效函數(shù)f:x->y,x,y in S,描述狀態(tài)轉(zhuǎn)移,f(s)表示在狀態(tài)s處,當(dāng)下一個(gè)字符不是bs時(shí)轉(zhuǎn)向狀態(tài)f(s)繼續(xù)匹配。因此設(shè)置f(s)成為關(guān)鍵問題。

    f(s)的存在其實(shí)主要是為了消除回溯。細(xì)節(jié)就不再多說了,這里只從原理上簡單說明。

    設(shè)模式串為W,用文法描述,U、V表示W(wǎng)的一部分,w表示一個(gè)字符:

    W -> UwV,

    當(dāng)U識別完成后,進(jìn)入狀態(tài)s,識別w時(shí),發(fā)現(xiàn)到來的字符不等于w,則需要轉(zhuǎn)向狀態(tài)f(s),f(s)到哪里去找呢?

    那就要看U是什么樣子了。不管什么情況,只要U非空串,總可以表示成:

       U -> uXu,或 U -> u,或U-> uXx,(x != u)

    可以發(fā)現(xiàn),前綴u是,如果后綴也是u,意味著主串中u已經(jīng)被識別,如果還從模式串頭匹配u無疑是多余的,所以f(s)應(yīng)該是識別前綴u后進(jìn)入的狀態(tài)。然后再匹配下一個(gè)字符。而滿足條件的u可能會有多個(gè),所以總是選擇最長的那個(gè)。偽代碼如下:

   

    到此為止,應(yīng)該算是可以結(jié)束KMP了,但實(shí)際情況下還可以對f函數(shù)進(jìn)行優(yōu)化。很多書本上描述的next數(shù)組就可以從f函數(shù)推導(dǎo)過來。

    其實(shí)也顯然,設(shè)狀態(tài)s接收字符w,當(dāng)與輸入字符c不等于c時(shí),轉(zhuǎn)向狀態(tài)t,倘若t狀態(tài)也只接收字符w,顯然再次比較w與c是多余的,之后必然再次轉(zhuǎn)向狀態(tài)f(t)。在運(yùn)行的時(shí)候,這些狀態(tài)轉(zhuǎn)換時(shí)沒有意義的,可以在構(gòu)造f之后,直接將f(s)設(shè)置為f(t)提高運(yùn)行效率(不過此時(shí)f函數(shù)的意義已經(jīng)不同了)。f優(yōu)化如下:

   

二、多關(guān)鍵字匹配與Aho-Corasick算法

    Aho和Corasick對KMP算法進(jìn)行了推廣,使它可以在一個(gè)文本串識別一個(gè)關(guān)鍵字集合中的任何關(guān)鍵字。在這種情況下,trie是一棵真正的樹,從其根結(jié)點(diǎn)開始就會出現(xiàn)分支。如果一個(gè)字符串是某個(gè)關(guān)鍵字的前綴,那么在trie中就又一個(gè)和該字符串對應(yīng)的狀態(tài)。如關(guān)鍵字集合{he,she,his,hers},trie樹如下:

   

   

    類似的,仍然構(gòu)造類似KMP算法中那樣的實(shí)效函數(shù)。對于上面的例子,失效函數(shù)如下:

s

0

1

2

3

4

5

6

7

8

9

f(s)

-1

0

0

0

1

2

0

3

0

3


  1.構(gòu)造失效函數(shù)

    類似KMP算法,同樣采用實(shí)效實(shí)效函數(shù)推進(jìn)的方法,假設(shè)當(dāng)前狀態(tài)為s,s的一個(gè)孩子結(jié)點(diǎn)的根結(jié)點(diǎn)根節(jié)點(diǎn)t狀態(tài),如果當(dāng)前的失效函數(shù)已知為f(s),則顯然地,f(t)必定是f(s)的孩子結(jié)點(diǎn)狀態(tài),所要做的就是在狀態(tài)f(s)處尋找接受字符同s->t下一個(gè)狀態(tài),如果能找到,那就是f(t),否則說明到s處匹配串的前綴長度太長,需縮減,所以需要找到更短的后綴,于是就到f(s)處繼續(xù),如果仍然找不到,則轉(zhuǎn)到f(f(s))處,形成狀態(tài)的遞歸轉(zhuǎn)移。構(gòu)造中需要遍歷之前結(jié)點(diǎn)的所有孩子,所以需采用廣度優(yōu)先遍歷,偽代碼如下:

   

    具體的構(gòu)造如下:

   

  2.構(gòu)造Trie樹

    具體實(shí)現(xiàn)當(dāng)然需要用到樹形結(jié)構(gòu)了,顯然采用靜態(tài)鏈表應(yīng)該是最適合的,因?yàn)闃錁?gòu)造完就不需要改變,而且當(dāng)模式串比較多的時(shí)候可以減少內(nèi)存碎片。

    每一個(gè)結(jié)點(diǎn)有5個(gè)域:接受字符,下一個(gè)兄弟結(jié)點(diǎn),第一個(gè)孩子結(jié)點(diǎn),失效函數(shù)值,結(jié)點(diǎn)狀態(tài)。

但是有一種特殊情況,如上面的第二個(gè)圖,在進(jìn)行匹配時(shí),hers是永遠(yuǎn)不會被匹配,因?yàn)閔e總是先于hers被匹配。這里就不考慮在內(nèi)點(diǎn)狀態(tài)結(jié)束,這個(gè)問題暫時(shí)無法解決。于是可以做個(gè)特殊處理,只使用4個(gè)域,因?yàn)榇藭r(shí)匹配成功后狀態(tài)就到了葉子結(jié)點(diǎn),葉子結(jié)點(diǎn)不存在孩子域,這個(gè)域被浪費(fèi)了,這里就可以借用一下,比如此域值為x,當(dāng)x<0時(shí),使用x xor 0x80000000表示識別到的模式串編號。

    另一個(gè)棘手的問題是結(jié)點(diǎn)個(gè)數(shù)問題,這個(gè)數(shù)組到底多大?如何確定?

    可以使用分值算法計(jì)算,先把模式串按字典順序排好序,設(shè)想n個(gè)排好序的模式串第i位排在一起,相同字符的組成一組,如AiBi…Xi,再把每組下一個(gè)字符,也就是第i+1位排在一起,相同字符的組成一組,如A’iB’I…X’i,以此遞歸運(yùn)算。偽代碼如下:

    

  3.缺點(diǎn)

    水平有限,程序缺點(diǎn)很多,很多問題都沒有解決。

    1.如果存在兩個(gè)模式串,一個(gè)是另一個(gè)的子串,那么后者將無法被匹配。

    2.無法處理動(dòng)態(tài)決定大小寫敏感性

    3.不夠完整,只能向后匹配

posted on 2009-12-06 22:51 夜風(fēng) 閱讀(6353) 評論(1)  編輯 收藏 引用 所屬分類: C/C++技術(shù)編譯技術(shù)算法

FeedBack:
# re: Aho-Corasick算法實(shí)踐
2014-05-12 10:10 | Ring
請問一下關(guān)于Aho-Corasick算法里面的失效函數(shù)。為什么節(jié)點(diǎn)9的失效函數(shù)為3呢?
看編譯原理定義此失效函數(shù)的定義為:假設(shè)S是對應(yīng)串b1b2...bn的狀態(tài),那么狀態(tài)f(s)對應(yīng)于最長的即是串b1b2...bn的后綴又是某個(gè)關(guān)鍵字的前綴的字符串。  回復(fù)  更多評論
  
<2009年12月>
293012345
6789101112
13141516171819
20212223242526
272829303112
3456789

常用鏈接

留言簿(1)

隨筆分類(7)

隨筆檔案(4)

文章分類

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美在线播放视频| 欧美激情第10页| 亚洲在线观看视频网站| 欧美日韩在线播放一区| 久久人人97超碰精品888| 久久激五月天综合精品| 亚洲免费观看高清在线观看| 羞羞答答国产精品www一本| 韩国久久久久| 亚洲精品久久久久久久久久久久久 | 欧美 日韩 国产 一区| 最新中文字幕亚洲| 妖精成人www高清在线观看| 欧美体内she精视频| 欧美人与性动交α欧美精品济南到| 欧美一级大片在线免费观看| 99国产精品久久久久久久成人热| 欧美粗暴jizz性欧美20| 免费看亚洲片| 欧美a级理论片| 六月丁香综合| 亚洲片在线资源| 伊人天天综合| 中文网丁香综合网| 欧美亚洲自偷自偷| 久久久久久久999| 亚洲国产精品久久久久婷婷884 | 一本色道88久久加勒比精品| 国产情侣一区| 亚洲日本va午夜在线影院| 99亚洲精品| 亚洲国产精品高清久久久| 亚洲综合日韩在线| 久久综合久久久久88| 欧美日韩一区在线视频| 欧美性事免费在线观看| 黄色一区二区三区| 亚洲欧美日韩国产综合精品二区| 欧美午夜视频一区二区| 国产午夜精品麻豆| 在线成人免费视频| 日韩视频在线一区二区| 欧美在线视频免费| 国产精品久久毛片a| 欧美成年人在线观看| 国产精品影院在线观看| 伊人久久大香线蕉综合热线| 欧美va亚洲va日韩∨a综合色| 日韩一本二本av| 欧美激情精品久久久久| 亚洲第一久久影院| 亚洲欧美自拍偷拍| 中文欧美日韩| 国产主播喷水一区二区| 亚洲免费网站| 亚洲午夜精品17c| 欧美国产日韩精品| 亚洲亚洲精品在线观看| 夜夜精品视频| 国产欧美日韩在线| 亚洲片在线观看| 99精品国产在热久久| 欧美日韩岛国| 亚洲美女黄色片| 欧美成人资源网| 国产麻豆午夜三级精品| 久久一区二区三区超碰国产精品| 久久久国际精品| 亚洲国产成人av在线| 亚洲美女中出| 激情久久五月天| 日韩亚洲欧美在线观看| 国产精品视频免费观看www| 久久亚洲风情| 亚洲欧美春色| 亚洲国产精品久久久久婷婷老年| 一本久久综合| 亚洲电影有码| 久久久www成人免费无遮挡大片| 亚洲精品美女久久久久| 久久成人久久爱| 性欧美大战久久久久久久久| 欧美肥婆bbw| 亚洲国产99精品国自产| 国产精品色午夜在线观看| 欧美激情免费观看| 亚洲午夜精品久久久久久app| 美女视频一区免费观看| 午夜天堂精品久久久久| 欧美**人妖| 亚洲激情六月丁香| 亚洲欧洲日夜超级视频| 男女av一区三区二区色多| 一本色道久久综合| 亚洲欧美国产另类| 在线免费观看视频一区| 亚洲七七久久综合桃花剧情介绍| 欧美午夜宅男影院| 久久午夜羞羞影院免费观看| 亚洲第一页自拍| 美女图片一区二区| 欧美华人在线视频| 一区二区亚洲欧洲国产日韩| 亚洲欧美福利一区二区| 久久久水蜜桃| 在线观看国产欧美| 欧美日韩伦理在线| 午夜国产精品影院在线观看| 西瓜成人精品人成网站| 激情综合自拍| 夜夜嗨av一区二区三区中文字幕| 国产日韩一区在线| 亚洲经典在线看| 国产亚洲在线| 久久久久久久久蜜桃| 国产乱码精品一区二区三区不卡 | 欧美日韩精品免费观看| av成人天堂| 欧美精品成人91久久久久久久| 一区二区亚洲欧洲国产日韩| 在线视频你懂得一区| 亚洲激情视频在线播放| 午夜亚洲伦理| 午夜欧美精品久久久久久久| 欧美激情一区二区久久久| 久热精品视频在线观看| 国产精品乱码久久久久久| 亚洲欧洲精品一区二区| 亚洲国产精品一区二区第一页| 欧美一区二区三区四区在线观看| 亚洲男人的天堂在线| 国产精品扒开腿爽爽爽视频| 亚洲激情视频在线播放| 亚洲黄一区二区| 免费观看欧美在线视频的网站| 蜜桃av一区二区在线观看| 狠狠色噜噜狠狠色综合久| 久久久另类综合| 欧美v日韩v国产v| 亚洲国语精品自产拍在线观看| 久久综合影视| 91久久综合亚洲鲁鲁五月天| 亚洲精品一区二| 欧美日韩精品| 亚洲一区二区高清视频| 欧美在线观看一区二区三区| 国产伦精品一区二区三区免费迷| 亚洲一区二区欧美| 久久精品人人做人人爽| 黄色另类av| 狼人社综合社区| 亚洲日本久久| 亚洲欧美精品在线观看| 国产日本亚洲高清| 久久久噜噜噜久噜久久| 女女同性女同一区二区三区91| 亚洲第一中文字幕在线观看| 免费在线国产精品| 99在线精品观看| 欧美中文在线视频| 在线欧美日韩| 欧美日韩免费精品| 亚洲欧美色婷婷| 美腿丝袜亚洲色图| 亚洲天堂久久| 狠狠久久亚洲欧美专区| 免费在线亚洲| 夜夜嗨av一区二区三区四区 | 国产一区二区三区免费不卡| 久久人人爽爽爽人久久久| 亚洲电影观看| 亚洲砖区区免费| 韩国一区二区三区在线观看 | 国产精品网站一区| 久久成人综合视频| 亚洲精品欧美日韩| 久久久国产视频91| 亚洲作爱视频| 一区二区在线观看视频在线观看| 欧美日本一区二区三区 | 欧美性色aⅴ视频一区日韩精品| 午夜久久电影网| 日韩一区二区精品葵司在线| 麻豆91精品| 欧美在线视频一区二区| 一区二区国产精品| 1024国产精品| 国产精品嫩草影院av蜜臀| 另类亚洲自拍| 先锋资源久久| 亚洲天堂av在线免费| 最新高清无码专区| 麻豆精品网站| 久久精品理论片| 亚洲一区二区三区精品在线| 在线观看日韩专区| 国产手机视频精品| 国产精品爽黄69| 欧美视频一区二区三区| 欧美福利视频在线|