青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 4,  comments - 27,  trackbacks - 0

Aho-Corasick算法實踐

摘要:

    Aho-Corasick算法可以在文本串中識別一組關鍵字,所需時間和文本長度以及所有關鍵字的總長度成正比。該算法使用了一種稱為“trie”的特殊形式的狀態裝換圖。Trie是一個樹形結構的狀態裝換圖,從一個結點到它的各個子結點的邊上有不同的標號。Trie的葉子結點表示識別到的關鍵字。

    在這里,將著重討論算法的實現。算法包含兩個部分,一是經典的KMP算法,二是KMP的擴展算法Aho-Corasick算法。前者實現單關鍵字的模式匹配,后者實現多關鍵字的匹配。(參考龍書詞法分析部分內容)

   【源代碼:http://m.shnenglu.com/Files/yefeng/ACKMP.rar(vc9.0下測試通過) 】

一、經典KMP算法

    當初,初學KMP算法時,總是通過反復的舉例去理解,沒有一種好的表達方式,而龍書描述這個算法使用了trie樹,也就是一個單鏈的狀態轉換圖。如模式b0b1...bn-1,trie樹如下:

    

    對模式串定義失效函數f:x->y,x,y in S,描述狀態轉移,f(s)表示在狀態s處,當下一個字符不是bs時轉向狀態f(s)繼續匹配。因此設置f(s)成為關鍵問題。

    f(s)的存在其實主要是為了消除回溯。細節就不再多說了,這里只從原理上簡單說明。

    設模式串為W,用文法描述,U、V表示W的一部分,w表示一個字符:

    W -> UwV,

    當U識別完成后,進入狀態s,識別w時,發現到來的字符不等于w,則需要轉向狀態f(s),f(s)到哪里去找呢?

    那就要看U是什么樣子了。不管什么情況,只要U非空串,總可以表示成:

       U -> uXu,或 U -> u,或U-> uXx,(x != u)

    可以發現,前綴u是,如果后綴也是u,意味著主串中u已經被識別,如果還從模式串頭匹配u無疑是多余的,所以f(s)應該是識別前綴u后進入的狀態。然后再匹配下一個字符。而滿足條件的u可能會有多個,所以總是選擇最長的那個。偽代碼如下:

   

    到此為止,應該算是可以結束KMP了,但實際情況下還可以對f函數進行優化。很多書本上描述的next數組就可以從f函數推導過來。

    其實也顯然,設狀態s接收字符w,當與輸入字符c不等于c時,轉向狀態t,倘若t狀態也只接收字符w,顯然再次比較w與c是多余的,之后必然再次轉向狀態f(t)。在運行的時候,這些狀態轉換時沒有意義的,可以在構造f之后,直接將f(s)設置為f(t)提高運行效率(不過此時f函數的意義已經不同了)。f優化如下:

   

二、多關鍵字匹配與Aho-Corasick算法

    Aho和Corasick對KMP算法進行了推廣,使它可以在一個文本串識別一個關鍵字集合中的任何關鍵字。在這種情況下,trie是一棵真正的樹,從其根結點開始就會出現分支。如果一個字符串是某個關鍵字的前綴,那么在trie中就又一個和該字符串對應的狀態。如關鍵字集合{he,she,his,hers},trie樹如下:

   

   

    類似的,仍然構造類似KMP算法中那樣的實效函數。對于上面的例子,失效函數如下:

s

0

1

2

3

4

5

6

7

8

9

f(s)

-1

0

0

0

1

2

0

3

0

3


  1.構造失效函數

    類似KMP算法,同樣采用實效實效函數推進的方法,假設當前狀態為s,s的一個孩子結點的根結點根節點t狀態,如果當前的失效函數已知為f(s),則顯然地,f(t)必定是f(s)的孩子結點狀態,所要做的就是在狀態f(s)處尋找接受字符同s->t下一個狀態,如果能找到,那就是f(t),否則說明到s處匹配串的前綴長度太長,需縮減,所以需要找到更短的后綴,于是就到f(s)處繼續,如果仍然找不到,則轉到f(f(s))處,形成狀態的遞歸轉移。構造中需要遍歷之前結點的所有孩子,所以需采用廣度優先遍歷,偽代碼如下:

   

    具體的構造如下:

   

  2.構造Trie樹

    具體實現當然需要用到樹形結構了,顯然采用靜態鏈表應該是最適合的,因為樹構造完就不需要改變,而且當模式串比較多的時候可以減少內存碎片。

    每一個結點有5個域:接受字符,下一個兄弟結點,第一個孩子結點,失效函數值,結點狀態。

但是有一種特殊情況,如上面的第二個圖,在進行匹配時,hers是永遠不會被匹配,因為he總是先于hers被匹配。這里就不考慮在內點狀態結束,這個問題暫時無法解決。于是可以做個特殊處理,只使用4個域,因為此時匹配成功后狀態就到了葉子結點,葉子結點不存在孩子域,這個域被浪費了,這里就可以借用一下,比如此域值為x,當x<0時,使用x xor 0x80000000表示識別到的模式串編號。

    另一個棘手的問題是結點個數問題,這個數組到底多大?如何確定?

    可以使用分值算法計算,先把模式串按字典順序排好序,設想n個排好序的模式串第i位排在一起,相同字符的組成一組,如AiBi…Xi,再把每組下一個字符,也就是第i+1位排在一起,相同字符的組成一組,如A’iB’I…X’i,以此遞歸運算。偽代碼如下:

    

  3.缺點

    水平有限,程序缺點很多,很多問題都沒有解決。

    1.如果存在兩個模式串,一個是另一個的子串,那么后者將無法被匹配。

    2.無法處理動態決定大小寫敏感性

    3.不夠完整,只能向后匹配

posted on 2009-12-06 22:51 夜風 閱讀(6353) 評論(1)  編輯 收藏 引用 所屬分類: C/C++技術編譯技術算法

FeedBack:
# re: Aho-Corasick算法實踐
2014-05-12 10:10 | Ring
請問一下關于Aho-Corasick算法里面的失效函數。為什么節點9的失效函數為3呢?
看編譯原理定義此失效函數的定義為:假設S是對應串b1b2...bn的狀態,那么狀態f(s)對應于最長的即是串b1b2...bn的后綴又是某個關鍵字的前綴的字符串。  回復  更多評論
  
<2014年5月>
27282930123
45678910
11121314151617
18192021222324
25262728293031
1234567

常用鏈接

留言簿(1)

隨筆分類(7)

隨筆檔案(4)

文章分類

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            鲁大师成人一区二区三区| 国产美女搞久久| 亚洲一区二区三区三| 亚洲国产一区在线观看| 嫩模写真一区二区三区三州| 免费成人av| 亚洲激情成人在线| 夜夜嗨av色一区二区不卡| 一区二区久久久久久| 亚洲免费在线精品一区| 久久精品1区| 欧美国产日韩一区二区在线观看| 欧美日在线观看| 国产一区二区三区免费不卡| 在线日韩欧美| 99国产精品久久久久久久久久| 亚洲综合精品一区二区| 久久久久9999亚洲精品| 欧美高清在线精品一区| 在线亚洲国产精品网站| 亚洲香蕉伊综合在人在线视看| 久久精品免费电影| 欧美国产一区二区三区激情无套| 欧美午夜不卡视频| 亚洲动漫精品| 午夜精品在线| 亚洲国产欧美一区二区三区同亚洲| 亚洲图片在线| 欧美成年网站| 国产亚洲美州欧州综合国| 日韩视频在线观看免费| 久久嫩草精品久久久久| 亚洲精品一区二区三区婷婷月| 欧美亚洲免费电影| 欧美日韩一区二区欧美激情 | 亚洲欧美日韩国产精品 | 亚洲午夜精品网| 欧美成人资源网| 久久国产视频网站| 国产欧美日韩另类视频免费观看| 精品69视频一区二区三区| 亚洲欧美成人综合| 亚洲精品视频二区| 欧美精品1区2区| 亚洲人成毛片在线播放| 裸体一区二区三区| 欧美一级黄色网| 国产日韩欧美在线播放| 亚洲欧美日韩区| 亚洲综合色噜噜狠狠| 国产精品国产三级欧美二区| 亚洲日本中文字幕免费在线不卡| 久久高清福利视频| 午夜精品久久99蜜桃的功能介绍| 欧美日韩四区| 亚洲精品日韩激情在线电影| 欧美成人免费全部| 久久av资源网| 国产婷婷97碰碰久久人人蜜臀| 亚洲免费在线精品一区| 99re热精品| 欧美日韩亚洲一区在线观看| 99视频精品免费观看| 亚洲国产高清在线| 欧美成人精品在线视频| 影音先锋日韩精品| 久久欧美中文字幕| 久久婷婷蜜乳一本欲蜜臀| 136国产福利精品导航网址应用| 麻豆九一精品爱看视频在线观看免费| 久久久精品五月天| 亚洲国产三级在线| 亚洲精品资源| 国产精品一区免费视频| 久久久久www| 欧美国产激情| 亚洲欧美偷拍卡通变态| 最新国产の精品合集bt伙计| 亚洲视频在线免费观看| 亚洲午夜精品久久久久久浪潮| 国产精品网站在线观看| 欧美专区一区二区三区| 久久久激情视频| 亚洲精品久久视频| 99精品热6080yy久久| 国产乱码精品| 欧美国产精品专区| 国产精品久久久久aaaa| 麻豆freexxxx性91精品| 欧美v日韩v国产v| 亚洲女同同性videoxma| 欧美中在线观看| 日韩一级黄色av| 亚洲永久精品国产| 国产小视频国产精品| 欧美成人免费在线观看| 欧美久久久久免费| 欧美在线观看视频在线| 欧美一区二区三区日韩视频| 欧美在线网站| 在线免费观看日本一区| 亚洲第一毛片| 国产精品乱子久久久久| 欧美黄网免费在线观看| 国产精品久久久久久久久搜平片 | 久久国产日韩| 亚洲综合色自拍一区| 久久精品亚洲国产奇米99| 一区二区欧美日韩| 久久久久综合网| 欧美一区高清| 欧美日韩国产首页| 国产日韩一区二区三区| 亚洲激情午夜| 国产一区二区精品在线观看| 欧美激情久久久| 国产亚洲精品美女| 亚洲色无码播放| 亚洲理论在线| 久久久久一区二区三区| 午夜激情综合网| 欧美韩国日本一区| 狼人社综合社区| 国产欧美一区二区三区久久人妖 | 欧美日韩麻豆| 欧美一区日韩一区| 国产精品久在线观看| 亚洲经典自拍| 黄色免费成人| 久久九九热re6这里有精品| 性18欧美另类| 欧美日韩在线播放| 亚洲欧洲日本国产| 亚洲国产成人精品女人久久久 | 欧美日韩亚洲不卡| 噜噜噜久久亚洲精品国产品小说| 国产精品视频yy9299一区| 99精品欧美一区二区蜜桃免费| 亚洲国产你懂的| 另类专区欧美制服同性| 欧美韩日高清| 日韩午夜在线电影| 欧美日韩精品高清| 亚洲私人影院在线观看| 亚洲欧美成人精品| 国产精品久久久久久久久久免费看| 亚洲精品国产精品国自产在线 | 亚洲精品在线看| 欧美精品一二三| 亚洲免费观看高清在线观看| 亚洲人成在线播放网站岛国| 嫩草国产精品入口| 日韩午夜高潮| 亚洲一级片在线观看| 国产精品一区毛片| 久久gogo国模裸体人体| 你懂的视频一区二区| 91久久夜色精品国产网站| 欧美激情日韩| 99亚洲伊人久久精品影院红桃| 在线亚洲欧美| 国产亚洲视频在线观看| 久久国产乱子精品免费女| 久久先锋资源| 一区二区福利| 国产欧美日韩精品专区| 久久久五月天| 99re热这里只有精品免费视频| 亚洲欧美视频一区二区三区| 国产精品一区一区| 免费不卡在线观看| 亚洲——在线| 亚洲国产成人porn| 欧美中文字幕精品| 亚洲黄色在线| 国产欧美一区二区三区沐欲| 欧美精品久久一区二区| 在线综合欧美| 亚洲第一页自拍| 午夜在线电影亚洲一区| 亚洲乱码国产乱码精品精可以看| 国产精品久久久久久妇女6080| 久久久一区二区| 一本色道久久加勒比88综合| 老司机一区二区三区| aa成人免费视频| 好吊色欧美一区二区三区四区| 欧美精品日韩www.p站| 亚洲一区二区不卡免费| 猛男gaygay欧美视频| 欧美一区二区精品| 日韩一二三区视频| 亚洲国产精品女人久久久| 国产欧美va欧美不卡在线| 欧美人与性动交α欧美精品济南到| 欧美一区二区在线| 国产精品99久久久久久www| 亚洲黑丝一区二区| 国产亚洲永久域名| 国产日韩欧美精品在线|