青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 17  文章 - 48  trackbacks - 0
<2025年12月>
30123456
78910111213
14151617181920
21222324252627
28293031123
45678910

常用鏈接

留言簿(3)

隨筆檔案

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

實現(xiàn)正則表達式的想法很早就有,各種原因導致沒有做,最近花了點時間先實現(xiàn)了幾個簡單的正則語法,分別是concatenation、alternation和closure,其他語法及metacharacter等有時間了有想法了之后再擴展。

 

這三種基本的語法分別是對應這樣的:

concatenation: abc    表示匹配字符串a(chǎn)bc

alternation: abc|def   表示匹配字符串a(chǎn)bc或者def

closure: a*               表示匹配零個到多個a構成的字符串

 

我們知道正則表達式最終需要轉換成自動機才能用來匹配字符串,我實現(xiàn)的正則通過如下幾個步驟把正則表達式轉換成自動機:

正則表達式->Parse成AST->生成邊(字符)集合->生成NFA->NFA subset construction->轉換成DFA->DFA minimization

最后用DFA minimization之后構造的自動機來匹配字符串。

 

正則語法的分析

一個正則表達式寫出來,要讓這個正則表達式匹配字符串等操作之前,我們先需要從正則表達式中提取需要的信息并在正則語法錯誤的時候提示錯誤,這個過程自然少不了parser。一個parser通常是從一個lexer里面獲取一個token,而正則表達式的token都是字符,那么lexer不需要做任何的分詞操作,只需要簡單的把字符返回給parser即可。

那三種基本的正則語法對應的BNF為:

re ::= alter
re_base ::= char | char_range | '(' re ')'
alter ::= alter_base alter_end
alter_base ::= concat
alter_end ::= '|' alter_base alter_end | epsilon
concat ::= concat_base concat_end
concat_base ::= re_base | closure
concat_end ::= concat_base concat_end | epsilon
closure ::= re_base '*'

這個parser分析了正則表達式之后產(chǎn)生AST,AST的node類型為:

class ASTNode
{
public:
    ACCEPT_VISITOR() = 0;
    virtual ~ASTNode() { }
};
 
class CharNode : public ASTNode
{
public:
    explicit CharNode(int c) : c_(c) { }
 
    ACCEPT_VISITOR();
 
    int c_;
};
 
class CharRangeNode : public ASTNode
{
public:
    struct Range
    {
        int first_;
        int last_;

        explicit Range(int first = 0, int last = 0)
            : first_(first), last_(last)
        {
        }
    };

    CharRangeNode() { }

    void AddRange(int first, int last)
    {
        ranges_.push_back(Range(first, last));
    }
 
    void AddChar(int c)
    {
        chars_.push_back(c);
    }
 
    ACCEPT_VISITOR();
 
    std::vector<Range> ranges_;
    std::vector<int> chars_;
};
 
class ConcatenationNode : public ASTNode
{
public:
    void AddNode(std::unique_ptr<ASTNode> node)
    {
        nodes_.push_back(std::move(node));
    }
 
    ACCEPT_VISITOR();
 
    std::vector<std::unique_ptr<ASTNode>> nodes_;
};
 
class AlternationNode : public ASTNode
{
public:
    void AddNode(std::unique_ptr<ASTNode> node)
    {
        nodes_.push_back(std::move(node));
    }
 
    ACCEPT_VISITOR();
 
    std::vector<std::unique_ptr<ASTNode>> nodes_;
};
 
class ClosureNode : public ASTNode
{
public:
    explicit ClosureNode(std::unique_ptr<ASTNode> node)
        : node_(std::move(node))
{
    }
 
    ACCEPT_VISITOR();
 
    std::unique_ptr<ASTNode> node_;
};

其中ASTNode作為AST的基類,并提供接口實現(xiàn)Visitor模式訪問ASTNode類型。

 

字符(邊)集的構造

AST構造好了之后,需要把AST轉換成NFA。語法中有[a-zA-Z0-9]這種字符區(qū)間表示法,我們可以用最簡單原始的方法轉換,就是把區(qū)間中的每個字符都轉化成相應的一條邊(NFA中的邊),這樣一來會導致字符區(qū)間越大,對應邊的數(shù)量會越多,使得對應的NFA也越大。因此,我們需要構造區(qū)間字符集合來減少邊的數(shù)量。

比如正則表達式是:a[x-z]|[a-z]*e

那么我們希望對應的字符集合是這樣:[a-a] [b-d] [e-e] [f-w] [x-z]

這需要構造一個字符集,每次插入一個區(qū)間的時候,把新插入的區(qū)間與已存在的區(qū)間進行分割,初始時已存在的區(qū)間集為空,那么正則表達式a[x-z]|[a-z]*e的劃分步驟如下:

已存在區(qū)間集合{},插入[a-a],得到{[a-a]}

已存在區(qū)間集合{[a-a]},插入[x-z],得到{[a-a], [x-z]}

已存在區(qū)間集合{[a-a], [x-z]},插入[a-z],得到{[a-a], [b-w], [x-z]}

已存在區(qū)間集合{[a-a], [b-w], [x-z]},插入[e-e],得到{[a-a], [b-d], [e-e], [f-w], [x-z]}

這個區(qū)間構造完成了之后,還需要在后面轉換成NFA邊的時候,根據(jù)字符區(qū)間查詢出在這個集合中,由哪幾個區(qū)間構成,比如:

查詢區(qū)間[a-a],得到[a-a]

查詢區(qū)間[x-z],得到[x-z]

查詢區(qū)間[a-z],得到區(qū)間[a-a] [b-d] [e-e] [f-w] [x-z]

在轉換成NFA時,集合中的每個區(qū)間都對應一條邊,這樣相對于每個字符對應一條邊,邊的數(shù)量不會太多。

有了這么一個集合構造的類之后,把正則的AST中的字符信息提取出來構造出這么個集合即可,這樣只需要寫個visitor就完成了:

class EdgeSetConstructorVisitor : public Visitor
{
public:
    explicit EdgeSetConstructorVisitor(EdgeSet *edge_set)
        : edge_set_(edge_set)
    {
    }
 
    EdgeSetConstructorVisitor(const EdgeSetConstructorVisitor &) = delete;
    void operator = (const EdgeSetConstructorVisitor &) = delete;
 
    VISIT_NODE(CharNode);
    VISIT_NODE(CharRangeNode);
    VISIT_NODE(ConcatenationNode);
    VISIT_NODE(AlternationNode);
    VISIT_NODE(ClosureNode);

private:
    EdgeSet *edge_set_;
};

邊集合構造完成之后,下一步就是生成NFA了。

posted on 2013-07-05 13:30 airtrack 閱讀(4456) 評論(3)  編輯 收藏 引用

FeedBack:
# re: 正則表達式實現(xiàn)(一) 2013-07-05 23:31 陳梓瀚(vczh)
# re: 正則表達式實現(xiàn)(一) 2013-07-06 01:34 airtrack
@陳梓瀚(vczh)
哈哈,早知道陳祖寫過正則引擎的系列文章,一直沒看,是想在我自己思考之后如果遇到問題的時候再看,啊哈哈。  回復  更多評論
  
# re: 正則表達式實現(xiàn)(一) 2013-07-06 20:13 溪流
學習了  回復  更多評論
  

只有注冊用戶登錄后才能發(fā)表評論。
網(wǎng)站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
      <noscript id="pjuwb"></noscript>
            <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
              <dd id="pjuwb"></dd>
              <abbr id="pjuwb"></abbr>
              欧美影院在线播放| 欧美+亚洲+精品+三区| avtt综合网| 欧美亚一区二区| 久久成人精品电影| 久久www成人_看片免费不卡| 国产日韩欧美综合精品| 久久久噜久噜久久综合| 麻豆精品传媒视频| 亚洲私人黄色宅男| 欧美亚洲视频在线看网址| 国内揄拍国内精品少妇国语| 另类激情亚洲| 欧美全黄视频| 欧美一区二区视频免费观看| 久久激情视频| 亚洲精品色图| 亚洲视频在线观看网站| 国内偷自视频区视频综合| 欧美激情视频给我| 国产精品国产三级国产专区53| 欧美亚洲专区| 欧美成人精品一区二区| 亚洲砖区区免费| 久久久久一区二区三区四区| 99视频精品全国免费| 欧美一区二区三区播放老司机| 亚洲成色精品| 亚洲专区一区| 日韩视频一区二区在线观看| 亚洲欧美清纯在线制服| 亚洲日本中文字幕免费在线不卡| 一区二区欧美在线| 亚洲国产人成综合网站| 亚洲欧美变态国产另类| 亚洲黄页一区| 久久国内精品视频| 亚洲私人影吧| 欧美成人一区二区三区| 久久久久久尹人网香蕉| 国产精品a久久久久| 欧美成人在线免费视频| 欧美日精品一区视频| 欧美成人精品h版在线观看| 国产伦精品一区二区| 亚洲人成小说网站色在线| 好吊色欧美一区二区三区四区 | 99国产一区| 久久精品中文| 久久精品国产第一区二区三区| 欧美日韩福利| 亚洲国产精品成人综合色在线婷婷| 国产免费观看久久黄| 一本到高清视频免费精品| 91久久国产综合久久| 欧美专区在线播放| 欧美在线综合视频| 国产精品爱啪在线线免费观看 | 亚洲午夜一区| 欧美精彩视频一区二区三区| 美女在线一区二区| 国内精品美女av在线播放| 香蕉久久夜色精品国产| 午夜精品久久久久影视 | 欧美精品综合| 欧美国产第一页| 亚洲青涩在线| 男女激情久久| 亚洲黑丝在线| 亚洲最新合集| 国产精品theporn88| 亚洲少妇自拍| 欧美一区二区视频97| 国产亚洲精品久| 久久国产手机看片| 欧美1区2区3区| 亚洲精品综合| 欧美三区视频| 欧美一级播放| 美女脱光内衣内裤视频久久影院| 一区二区三区我不卡| 免费成人av资源网| 亚洲欧洲一区二区在线播放| 亚洲美女电影在线| 国产精品成人国产乱一区| 亚洲网站视频福利| 久久久久久久久久久一区| 永久久久久久| 欧美日韩综合精品| 欧美一区二区三区精品电影| 欧美成年人视频网站欧美| 99精品久久免费看蜜臀剧情介绍| 欧美色图首页| 欧美伊人久久久久久久久影院 | 免费看亚洲片| 亚洲毛片网站| 国产精品视频免费一区| 久久精品国产2020观看福利| 亚洲国产一区二区三区青草影视| 亚洲一区亚洲| 好吊妞**欧美| 欧美色视频一区| 久久精品在这里| 亚洲老司机av| 久久人人超碰| 亚洲自拍三区| 亚洲精品国产精品国自产在线| 国产精品高精视频免费| 久久综合狠狠| 亚洲欧美激情一区二区| 亚洲欧洲日产国码二区| 久久久久一区二区三区四区| 99re亚洲国产精品| 好男人免费精品视频| 欧美日韩在线视频一区二区| 久久久噜噜噜久久狠狠50岁| 日韩视频在线一区二区| 蜜桃久久av| 久久国产色av| 亚洲小少妇裸体bbw| 亚洲激情啪啪| 黄色av成人| 国产精品另类一区| 欧美日本精品一区二区三区| 久久久久久久成人| 亚洲欧美在线一区二区| 夜夜爽av福利精品导航| 亚洲国产乱码最新视频| 欧美不卡视频一区| 久久亚洲精品视频| 欧美专区第一页| 亚洲一区美女视频在线观看免费| 亚洲欧洲精品一区二区精品久久久 | 亚洲国产精品一区制服丝袜| 久久夜色精品国产噜噜av| 亚洲欧美一区二区视频| 亚洲五月婷婷| 9l国产精品久久久久麻豆| 亚洲精品在线看| 亚洲精品自在在线观看| 亚洲精选91| 日韩视频一区二区三区在线播放免费观看 | 红桃视频国产精品| 国产综合久久| 国产亚洲成av人在线观看导航| 国产精品a久久久久| 国产精品qvod| 国产精品实拍| 国产亚洲福利社区一区| 国产一区二区三区在线观看网站| 国产精品美女主播| 国产精品三上| 国产在线不卡| 在线观看亚洲专区| 最新成人在线| 一本色道久久综合精品竹菊 | 日韩视频中文字幕| 一区二区三区高清| 亚洲视频第一页| 亚洲欧美自拍偷拍| 久久er精品视频| 久久香蕉精品| 亚洲国产成人久久| 一区二区欧美精品| 欧美一区二区三区在线| 久久久人成影片一区二区三区观看 | 久久精品国产亚洲aⅴ| 久热精品视频在线观看一区| 猛男gaygay欧美视频| 亚洲国产日日夜夜| 一区二区三区日韩欧美精品| 亚洲一区二区在线视频| 久久久久久穴| 欧美片在线播放| 国产午夜精品视频| 亚洲人午夜精品| 香港久久久电影| 欧美成人dvd在线视频| 亚洲另类黄色| 久久精品成人| 国产精品h在线观看| 国内精品免费在线观看| 99香蕉国产精品偷在线观看| 亚洲欧美怡红院| 欧美激情bt| 性8sex亚洲区入口| 欧美激情精品久久久久久大尺度 | 香蕉成人伊视频在线观看| 美女黄网久久| 国产麻豆日韩| 日韩视频不卡中文| 久久综合精品国产一区二区三区| 亚洲精品激情| 久久久福利视频| 国产精品v片在线观看不卡 | 国产视频一区三区| av成人福利| 欧美高清视频在线| 欧美在线一二三| 国产精品嫩草99a|