青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 17  文章 - 48  trackbacks - 0
<2015年5月>
262728293012
3456789
10111213141516
17181920212223
24252627282930
31123456

常用鏈接

留言簿(3)

隨筆檔案

搜索

  •  

最新評論

閱讀排行榜

評論排行榜


去年花了兩三個星期的業余時間實現了基于DFA的正則引擎( ),時間一晃就過去一年,工作繁忙,興趣面廣,前途未卜什么的耗費太多精力,最近兩三個月抽了點時間寫了基于NFA的正則引擎,代碼放在Github

正則引擎常見的實現方法

正則的常見實現方式有三種:DFA、Backtracking、NFA:

  • DFA是三種實現中效率最高的,不過缺點也明顯,一是DFA的構造復雜耗時,二是DFA支持的正則語法有限。在早期正則被發明出來時,只有concatenation、alternation、Kleene star,即"ab" "a|b" "a*",DFA可以輕松搞定。隨著計算機的發展,正則像所有其它語言一樣發展出各種新的語法,很多語法在DFA中難以實現,比如capture、backreference(capture倒是有論文描述可以在DFA中實現)。

  • Backtracking是三種實現中效率最低的,功能確是最強的,它可以實現所有后面新加的語法,因此,大多數正則引擎實現都采用此方法。因為它是回溯的,所以在某些情況下會出現指數復雜度,這篇文章有詳細的描述。

  • NFA(Thompson NFA)有相對DFA來說的構造簡單,并兼有接近DFA的效率,并且在面對Backtracking出現指數復雜度時的正則表達式保持良好的性能。

NFA-based的實現

這里描述的NFA是指Thompson NFA。Thompson NFA實現的核心是對于正則表達式多個可能的匹配并發的向前匹配,此過程是在模擬DFA運行。比如對于正則表達式"abab|abbb"匹配字符串"abbb":

  • Backtracking的匹配過程是取正則的第一個子表達式"abab"匹配,前兩個字符匹配成功,匹配第三個字符的時候失敗,這時引擎回溯選擇第二個子表達式"abbb"匹配,最終匹配成功。

  • Thompson NFA是同時取兩個子表達式"abab"和"abbb"匹配,前兩個字符匹配時,兩個子表達式都能匹配成功,當匹配第三個字符時,子表達式"abab"匹配失敗,因此丟棄,"abbb"匹配成功接著匹配,最終匹配成功。

上面是一個簡單的例子,沒有出現"*" "+" "{m,n}"這種復雜的metacharacters,在處理這種repeat的metacharacter時Thompson NFA優勢更加明顯。

在實際復雜的正則表達式中,NFA構造是必然會產生一堆epsilon邊,這在第二篇文章中有描述。上面描述Thompson NFA實際是在模擬DFA運行,在每個字符匹配完成之后需要跳過epsilon邊得到后面要匹配的并發的狀態集合,這樣持續的并發匹配下去,當字符串匹配完成時只要有一個達到了接受狀態,就是匹配成功,若這個集合為空,那表示匹配失敗。

在我的實現中,構造了一組狀態和由這組狀態加epsilon邊集合構造的有向圖,每個狀態有自己的狀態類型,分為兩種:

  • 一種是匹配狀態類型,即用來匹配字符的狀態,若字符匹配成功,則進入下一個狀態;

  • 一種是操作狀態類型,即不匹配字符的狀態,在每個字符匹配結束之后若到達這些狀態,則會進行相應的操作,比如repeat狀態,記錄匹配計數,并判斷匹配計數是否完成再決定是否進入的下面的狀態。

repeat是一種會分化的狀態,達到最小匹配次數時,可以接著往下走,也可以繼續重復匹配repeat的子正則表達式,這樣就分化成兩條線了,并且每條線都帶有自己的狀態數據,因此,我的實現中引入的thread來表示一條匹配線,里面有狀態數據。

Match和Search

狀態構造完成了之后,就要開始匹配了。匹配有兩種,一種是match,即一個正則表達式能否完整匹配一個字符串,若完整匹配則匹配成功;另一種是search,要在一個字符串中或者一塊buffer中查找每個滿足的匹配。這里就有個問題,從第一個字符開始匹配,匹配了幾個字符之后發現匹配失敗了怎么辦呢?回退到第二個字符重新匹配?我們知道對于普通的字符串查找,有KMP算法可以保證不回退字符(其實KMP算法的預處理就是構造DFA),或者有Boyer-Moore算法盡量回退少的字符個數。對于正則這種復雜的匹配該怎么辦呢?從上面的Thompson NFA的描述可以知道匹配過程是多條線并發匹配,因此可以構造一個始終產生一條新線的狀態,若匹配在前面的線失敗被丟棄之后,后面的新線始終可以補上,這樣查找的過程就不再需要回退字符了。

我的實現中,狀態構造完成后是這樣的:

    // |-----|--------|---------------|-----|-------------|
    
// | any | repeat | capture begin |  | capture end |
    
// |-----|--------|---------------|-----|-------------|

用repeat-any來產生新的匹配線。若在match模式下,則從第三個狀態開始匹配,不會產生新的匹配線,一旦匹配過程失敗了就失敗了。

結語

正則表達式語法一直在擴展,新的語法有些很難在DFA和NFA中實現,而在Backtracking中的實現又是以犧牲性能為代價。因此有些正則表達式實現會結合多種實現方式,判斷正則表達式的類型選擇不同的引擎,比如普通字符串加上一些簡單的正則語法采用DFA引擎匹配,或者只有普通字符串的匹配可以用Boyer-Moore算法,畢竟Boyer-Moore算法在普通文本查找中要優于KMP算法:),對于復雜的正則表達式采用Backtracking,甚至有些正則引擎使用JIT來加速。

posted on 2014-09-15 19:04 airtrack 閱讀(3210) 評論(0)  編輯 收藏 引用

只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            午夜视频在线观看一区二区三区| 欧美国产日韩一区| 免费欧美在线视频| 久久人人爽人人爽| 欧美一区二区三区日韩视频| 亚洲欧美精品伊人久久| 午夜日韩视频| 久久精品综合| 欧美韩日亚洲| 亚洲全黄一级网站| 欧美高清视频免费观看| 欧美激情一区二区三区四区 | 亚洲大片一区二区三区| 曰韩精品一区二区| 一本色道久久88亚洲综合88| 亚洲天堂偷拍| 久久久久久尹人网香蕉| 亚洲国产综合91精品麻豆| 亚洲作爱视频| 亚洲欧美日本国产有色| 久久综合伊人77777麻豆| 欧美精品久久99| 国产午夜精品一区理论片飘花| 又紧又大又爽精品一区二区| 日韩午夜剧场| 久久久精品国产免费观看同学| 亚洲第一中文字幕| 亚洲中午字幕| 欧美大片第1页| 国产视频亚洲精品| 在线一区视频| 你懂的视频欧美| 亚洲性色视频| 欧美黑人国产人伦爽爽爽| 国产日韩精品视频一区| 一道本一区二区| 欧美成人在线网站| 欧美一区二区视频在线观看| 欧美日韩色婷婷| 久久久久亚洲综合| 日韩一级黄色大片| 久久精品综合一区| 99精品久久久| 久久综合九色综合欧美狠狠| 国产精品国产三级国产普通话蜜臀 | 国产精品福利在线观看网址| 亚洲国产精品久久| 性做久久久久久久久| 91久久精品国产91久久| 久久久7777| 国产亚洲免费的视频看| 亚洲欧洲av一区二区三区久久| 亚洲狠狠丁香婷婷综合久久久| 欧美在线啊v| 国产精品中文字幕在线观看| 国产精品99久久久久久有的能看| 欧美a级片一区| 久久精品国产96久久久香蕉| 国产女主播一区| 亚洲欧美日韩在线高清直播| 一本不卡影院| 欧美午夜不卡影院在线观看完整版免费| 亚洲高清在线视频| 欧美福利视频网站| 免费日韩视频| 99re6这里只有精品| 亚洲精品专区| 欧美小视频在线| 亚洲综合色在线| 亚洲在线视频| 国产在线不卡视频| 免费成人高清在线视频| 久久久亚洲一区| 亚洲激情二区| 日韩视频二区| 国产精品一区二区久久久| 欧美中文字幕视频| 久久国产精品网站| 亚洲狠狠婷婷| 日韩一区二区福利| 国产老女人精品毛片久久| 久久精品99| 久久伊伊香蕉| av成人免费观看| 亚洲一区二区三区四区五区黄| 国产精品永久免费在线| 麻豆av一区二区三区久久| 欧美国产激情二区三区| 亚洲欧美日韩国产一区二区| 欧美专区一区二区三区| 亚洲乱码国产乱码精品精| 正在播放亚洲一区| 狠狠色伊人亚洲综合网站色| 亚洲日本中文| 国产日本欧美一区二区三区| 欧美成人久久| 国产精品久久久久久模特| 国产精品福利久久久| 国产一区二区三区久久悠悠色av| 久热成人在线视频| 欧美日韩国产小视频| 久久精品日产第一区二区| 免费中文字幕日韩欧美| 亚洲免费小视频| 鲁鲁狠狠狠7777一区二区| 亚洲色无码播放| 久久人人看视频| 亚洲综合好骚| 欧美极品影院| 久久亚洲欧美| 国产精品高潮粉嫩av| 亚洲盗摄视频| 国外成人免费视频| 欧美一区二区三区视频免费播放| 日韩视频永久免费观看| 黄色成人在线网站| 亚洲一区二区影院| 99一区二区| 欧美成人一区二免费视频软件| 欧美专区在线| 欧美日韩国产丝袜另类| 欧美jizz19性欧美| 国产日韩高清一区二区三区在线| 亚洲伦理中文字幕| 亚洲精品久久久久久久久久久久| 欧美在线网址| 欧美一区二区视频97| 欧美日韩美女一区二区| 欧美激情日韩| 亚洲国产成人av好男人在线观看| 亚洲欧美影院| 欧美亚洲综合另类| 国产精品久久久久7777婷婷| 91久久国产精品91久久性色| 亚洲高清一区二区三区| 噜噜噜在线观看免费视频日韩| 久久久视频精品| 国产亚洲一区在线| 午夜精品福利在线| 久久精品二区| 国产一区二区三区在线免费观看| 亚洲在线一区二区| 午夜精品久久久久久久蜜桃app | 亚洲日本国产| 美女网站久久| 亚洲第一色在线| 洋洋av久久久久久久一区| 欧美精品粉嫩高潮一区二区| 亚洲国产综合91精品麻豆| 日韩亚洲欧美一区| 欧美日韩三级在线| 亚洲在线观看| 久久艳片www.17c.com| 亚洲第一网站| 欧美精品三级日韩久久| 亚洲少妇自拍| 久久女同精品一区二区| 亚洲视频精品在线| 卡通动漫国产精品| 国产精品日韩欧美一区| 亚洲综合社区| 久久伊人精品天天| 亚洲人成网站色ww在线| 欧美日韩免费一区二区三区视频| 一区二区电影免费观看| 欧美一区二区三区的| 伊伊综合在线| 欧美日韩视频在线| 欧美亚洲日本网站| 亚洲福利专区| 亚洲欧美中文另类| 亚洲成在人线av| 欧美视频在线观看免费网址| 欧美一级片一区| 亚洲黄色影院| 久久国产一区二区| 亚洲人久久久| 国产精品综合久久久| 欧美成人午夜视频| 亚洲欧美日本伦理| 亚洲精品自在久久| 蜜臀a∨国产成人精品| 亚洲一区在线观看视频 | 欧美国产日产韩国视频| 亚洲免费在线播放| 亚洲国产成人av好男人在线观看| 亚洲欧美另类在线观看| 亚洲第一天堂av| 国产精品一区二区久久久| 欧美精品乱码久久久久久按摩| 香蕉成人久久| 中国av一区| 亚洲精品国偷自产在线99热| 久久免费99精品久久久久久| 一本色道久久综合精品竹菊| 影音先锋欧美精品| 国产一区二区三区黄视频| 欧美视频二区36p| 欧美黄色一区| 欧美xx视频|