青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 17  文章 - 48  trackbacks - 0
<2025年10月>
2829301234
567891011
12131415161718
19202122232425
2627282930311
2345678

常用鏈接

留言簿(3)

隨筆檔案

搜索

  •  

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

實(shí)現(xiàn)正則表達(dá)式的想法很早就有,各種原因?qū)е聸]有做,最近花了點(diǎn)時(shí)間先實(shí)現(xiàn)了幾個(gè)簡(jiǎn)單的正則語法,分別是concatenation、alternation和closure,其他語法及metacharacter等有時(shí)間了有想法了之后再擴(kuò)展。

 

這三種基本的語法分別是對(duì)應(yīng)這樣的:

concatenation: abc    表示匹配字符串a(chǎn)bc

alternation: abc|def   表示匹配字符串a(chǎn)bc或者def

closure: a*               表示匹配零個(gè)到多個(gè)a構(gòu)成的字符串

 

我們知道正則表達(dá)式最終需要轉(zhuǎn)換成自動(dòng)機(jī)才能用來匹配字符串,我實(shí)現(xiàn)的正則通過如下幾個(gè)步驟把正則表達(dá)式轉(zhuǎn)換成自動(dòng)機(jī):

正則表達(dá)式->Parse成AST->生成邊(字符)集合->生成NFA->NFA subset construction->轉(zhuǎn)換成DFA->DFA minimization

最后用DFA minimization之后構(gòu)造的自動(dòng)機(jī)來匹配字符串。

 

正則語法的分析

一個(gè)正則表達(dá)式寫出來,要讓這個(gè)正則表達(dá)式匹配字符串等操作之前,我們先需要從正則表達(dá)式中提取需要的信息并在正則語法錯(cuò)誤的時(shí)候提示錯(cuò)誤,這個(gè)過程自然少不了parser。一個(gè)parser通常是從一個(gè)lexer里面獲取一個(gè)token,而正則表達(dá)式的token都是字符,那么lexer不需要做任何的分詞操作,只需要簡(jiǎn)單的把字符返回給parser即可。

那三種基本的正則語法對(duì)應(yīng)的BNF為:

re ::= alter
re_base ::= char | char_range | '(' re ')'
alter ::= alter_base alter_end
alter_base ::= concat
alter_end ::= '|' alter_base alter_end | epsilon
concat ::= concat_base concat_end
concat_base ::= re_base | closure
concat_end ::= concat_base concat_end | epsilon
closure ::= re_base '*'

這個(gè)parser分析了正則表達(dá)式之后產(chǎn)生AST,AST的node類型為:

class ASTNode
{
public:
    ACCEPT_VISITOR() = 0;
    virtual ~ASTNode() { }
};
 
class CharNode : public ASTNode
{
public:
    explicit CharNode(int c) : c_(c) { }
 
    ACCEPT_VISITOR();
 
    int c_;
};
 
class CharRangeNode : public ASTNode
{
public:
    struct Range
    {
        int first_;
        int last_;

        explicit Range(int first = 0, int last = 0)
            : first_(first), last_(last)
        {
        }
    };

    CharRangeNode() { }

    void AddRange(int first, int last)
    {
        ranges_.push_back(Range(first, last));
    }
 
    void AddChar(int c)
    {
        chars_.push_back(c);
    }
 
    ACCEPT_VISITOR();
 
    std::vector<Range> ranges_;
    std::vector<int> chars_;
};
 
class ConcatenationNode : public ASTNode
{
public:
    void AddNode(std::unique_ptr<ASTNode> node)
    {
        nodes_.push_back(std::move(node));
    }
 
    ACCEPT_VISITOR();
 
    std::vector<std::unique_ptr<ASTNode>> nodes_;
};
 
class AlternationNode : public ASTNode
{
public:
    void AddNode(std::unique_ptr<ASTNode> node)
    {
        nodes_.push_back(std::move(node));
    }
 
    ACCEPT_VISITOR();
 
    std::vector<std::unique_ptr<ASTNode>> nodes_;
};
 
class ClosureNode : public ASTNode
{
public:
    explicit ClosureNode(std::unique_ptr<ASTNode> node)
        : node_(std::move(node))
{
    }
 
    ACCEPT_VISITOR();
 
    std::unique_ptr<ASTNode> node_;
};

其中ASTNode作為AST的基類,并提供接口實(shí)現(xiàn)Visitor模式訪問ASTNode類型。

 

字符(邊)集的構(gòu)造

AST構(gòu)造好了之后,需要把AST轉(zhuǎn)換成NFA。語法中有[a-zA-Z0-9]這種字符區(qū)間表示法,我們可以用最簡(jiǎn)單原始的方法轉(zhuǎn)換,就是把區(qū)間中的每個(gè)字符都轉(zhuǎn)化成相應(yīng)的一條邊(NFA中的邊),這樣一來會(huì)導(dǎo)致字符區(qū)間越大,對(duì)應(yīng)邊的數(shù)量會(huì)越多,使得對(duì)應(yīng)的NFA也越大。因此,我們需要構(gòu)造區(qū)間字符集合來減少邊的數(shù)量。

比如正則表達(dá)式是:a[x-z]|[a-z]*e

那么我們希望對(duì)應(yīng)的字符集合是這樣:[a-a] [b-d] [e-e] [f-w] [x-z]

這需要構(gòu)造一個(gè)字符集,每次插入一個(gè)區(qū)間的時(shí)候,把新插入的區(qū)間與已存在的區(qū)間進(jìn)行分割,初始時(shí)已存在的區(qū)間集為空,那么正則表達(dá)式a[x-z]|[a-z]*e的劃分步驟如下:

已存在區(qū)間集合{},插入[a-a],得到{[a-a]}

已存在區(qū)間集合{[a-a]},插入[x-z],得到{[a-a], [x-z]}

已存在區(qū)間集合{[a-a], [x-z]},插入[a-z],得到{[a-a], [b-w], [x-z]}

已存在區(qū)間集合{[a-a], [b-w], [x-z]},插入[e-e],得到{[a-a], [b-d], [e-e], [f-w], [x-z]}

這個(gè)區(qū)間構(gòu)造完成了之后,還需要在后面轉(zhuǎn)換成NFA邊的時(shí)候,根據(jù)字符區(qū)間查詢出在這個(gè)集合中,由哪幾個(gè)區(qū)間構(gòu)成,比如:

查詢區(qū)間[a-a],得到[a-a]

查詢區(qū)間[x-z],得到[x-z]

查詢區(qū)間[a-z],得到區(qū)間[a-a] [b-d] [e-e] [f-w] [x-z]

在轉(zhuǎn)換成NFA時(shí),集合中的每個(gè)區(qū)間都對(duì)應(yīng)一條邊,這樣相對(duì)于每個(gè)字符對(duì)應(yīng)一條邊,邊的數(shù)量不會(huì)太多。

有了這么一個(gè)集合構(gòu)造的類之后,把正則的AST中的字符信息提取出來構(gòu)造出這么個(gè)集合即可,這樣只需要寫個(gè)visitor就完成了:

class EdgeSetConstructorVisitor : public Visitor
{
public:
    explicit EdgeSetConstructorVisitor(EdgeSet *edge_set)
        : edge_set_(edge_set)
    {
    }
 
    EdgeSetConstructorVisitor(const EdgeSetConstructorVisitor &) = delete;
    void operator = (const EdgeSetConstructorVisitor &) = delete;
 
    VISIT_NODE(CharNode);
    VISIT_NODE(CharRangeNode);
    VISIT_NODE(ConcatenationNode);
    VISIT_NODE(AlternationNode);
    VISIT_NODE(ClosureNode);

private:
    EdgeSet *edge_set_;
};

邊集合構(gòu)造完成之后,下一步就是生成NFA了。

posted on 2013-07-05 13:30 airtrack 閱讀(4445) 評(píng)論(3)  編輯 收藏 引用

FeedBack:
# re: 正則表達(dá)式實(shí)現(xiàn)(一) 2013-07-05 23:31 陳梓瀚(vczh)
# re: 正則表達(dá)式實(shí)現(xiàn)(一) 2013-07-06 01:34 airtrack
@陳梓瀚(vczh)
哈哈,早知道陳祖寫過正則引擎的系列文章,一直沒看,是想在我自己思考之后如果遇到問題的時(shí)候再看,啊哈哈。  回復(fù)  更多評(píng)論
  
# re: 正則表達(dá)式實(shí)現(xiàn)(一) 2013-07-06 20:13 溪流
學(xué)習(xí)了  回復(fù)  更多評(píng)論
  

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
      <noscript id="pjuwb"></noscript>
            <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
              <dd id="pjuwb"></dd>
              <abbr id="pjuwb"></abbr>
              日韩亚洲欧美高清| 亚洲国产aⅴ天堂久久| 亚洲婷婷免费| 99精品国产热久久91蜜凸| 亚洲乱码国产乱码精品精| 亚洲国产精品专区久久| 免费亚洲婷婷| 亚洲国产一区二区视频| 亚洲日本成人网| 夜夜躁日日躁狠狠久久88av| 亚洲午夜成aⅴ人片| 亚洲免费一在线| 久久久国产视频91| 欧美丰满少妇xxxbbb| 欧美视频在线播放| 国产一区99| 99精品热视频只有精品10| 午夜久久福利| 欧美国产日本高清在线| 亚洲午夜激情网站| 蜜桃久久av一区| 国产精品久久久久9999| 黄色小说综合网站| 亚洲午夜激情网页| 欧美va亚洲va国产综合| a4yy欧美一区二区三区| 久久av老司机精品网站导航| 欧美高清hd18日本| 国产欧美精品在线播放| 日韩视频亚洲视频| 久久综合狠狠综合久久综合88| 亚洲激情二区| 久久精品视频在线看| 欧美日韩一区二区视频在线| 国产综合精品| 午夜精品久久久久久久| 欧美激情一区二区久久久| 亚洲一区二区在线免费观看| 欧美成人一区二区三区| 国内不卡一区二区三区| 亚洲综合色网站| 亚洲另类在线视频| 国产亚洲欧洲997久久综合| 午夜综合激情| 欧美日韩精品综合| 亚洲成色777777在线观看影院| 亚洲一区二区三区高清| 亚洲电影第三页| 欧美一区二区在线| 国产精品久久久久久久久久直播 | 亚洲综合欧美| 亚洲国产视频a| 免费观看日韩av| 黑人巨大精品欧美黑白配亚洲| 亚洲欧美在线免费观看| 日韩一级不卡| 欧美精品一区二区视频| 亚洲精品极品| 亚洲欧洲精品一区二区三区不卡| 久久午夜视频| 亚洲欧洲精品一区二区三区波多野1战4 | 国产一区二区三区黄| 亚洲一区二区三区在线观看视频 | 亚洲第一区在线| 老司机久久99久久精品播放免费| 欧美亚洲在线观看| 国内精品嫩模av私拍在线观看| 久久九九精品| 久久精品盗摄| 亚洲国产一区二区视频| 欧美激情视频一区二区三区不卡| 久热综合在线亚洲精品| 亚洲精品乱码久久久久久蜜桃麻豆 | 久久精品综合| 在线播放中文一区| 欧美大片在线观看| 欧美久久久久久久| 亚洲欧美日韩国产综合在线| 亚洲网站在线| 国产欧美日韩综合精品二区| 久久久国产精品一区二区中文| 久久精品视频一| 亚洲免费黄色| 亚洲综合精品| 亚洲无线视频| 欧美日韩精品一区二区天天拍小说| 亚洲激情在线视频| 999亚洲国产精| 国产情人综合久久777777| 久久综合一区| 欧美经典一区二区三区| 亚洲欧美久久久| 久久精品国产欧美激情| 一本久道久久综合狠狠爱| 亚洲男人的天堂在线| 亚洲国产日韩欧美| 亚洲神马久久| 91久久精品日日躁夜夜躁欧美 | 亚洲国产二区| 中国成人黄色视屏| 亚洲高清视频一区二区| 一本高清dvd不卡在线观看| 黑人操亚洲美女惩罚| 亚洲免费av网站| 一区二区视频免费完整版观看| 亚洲乱码精品一二三四区日韩在线 | 午夜免费久久久久| 久热综合在线亚洲精品| 欧美诱惑福利视频| 欧美日韩免费观看一区| 看片网站欧美日韩| 国产精品日韩二区| 亚洲精品中文字幕有码专区| 在线观看成人av| 亚洲欧美日韩国产精品| 一本色道88久久加勒比精品| 久久综合色一综合色88| 久久精品欧美| 国产噜噜噜噜噜久久久久久久久| 最新亚洲电影| 亚洲品质自拍| 老色鬼久久亚洲一区二区| 久久精品一区二区三区不卡| 国产精品播放| 一个色综合导航| 亚洲午夜伦理| 欧美美女bb生活片| 亚洲日本成人在线观看| 亚洲欧洲日产国产综合网| 久久久久久久综合| 免费永久网站黄欧美| 一区二区在线观看视频| 欧美在线视频一区二区三区| 欧美一区成人| 国产视频精品免费播放| 亚洲一区二区三区精品在线| 亚洲免费在线视频一区 二区| 欧美精品电影| 日韩视频在线播放| 亚洲欧美日韩精品在线| 国产精品美女www爽爽爽视频| 亚洲一区二区在线视频| 久久成人精品| 国产日韩在线亚洲字幕中文| 一区二区三区日韩在线观看| 亚洲午夜久久久久久久久电影网| 欧美日韩精品一二三区| 日韩亚洲欧美精品| 先锋影院在线亚洲| 国产午夜亚洲精品理论片色戒| 欧美国产亚洲精品久久久8v| 亚洲高清激情| 欧美日韩免费在线观看| 中国成人亚色综合网站| 久久国产欧美| 亚洲大胆人体在线| 欧美日韩精品系列| 亚洲男女自偷自拍图片另类| 久久一日本道色综合久久| 最近中文字幕日韩精品| 欧美性猛交99久久久久99按摩| 亚洲欧美一区二区激情| 欧美3dxxxxhd| 亚洲欧美日产图| 在线播放日韩专区| 欧美极品一区| 欧美一区二区三区在线免费观看| 蜜臀a∨国产成人精品| 夜夜嗨av一区二区三区网页 | 国产精品久久网| 久久精品日产第一区二区| 亚洲人永久免费| 久久久久久久91| 亚洲视频欧美在线| 狠狠色综合播放一区二区| 欧美理论在线| 久久久久在线| 亚洲一区在线免费| 亚洲品质自拍| 久久综合中文色婷婷| 亚洲在线视频观看| 亚洲人成人一区二区在线观看| 欧美午夜精品一区| 免费成人美女女| 小处雏高清一区二区三区| 亚洲区中文字幕| 久久―日本道色综合久久| 在线午夜精品自拍| 亚洲国产精品久久久久| 国产日韩在线看| 欧美性猛交xxxx免费看久久久| 久久免费偷拍视频| 午夜久久影院| 亚洲摸下面视频| 一本色道久久88综合亚洲精品ⅰ| 欧美sm极限捆绑bd| 久久视频在线视频| 久久精品人人爽| 性娇小13――14欧美| 亚洲一区二区三区乱码aⅴ蜜桃女|