• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆-341  評論-2670  文章-0  trackbacks-0
                其實Vczh Library++3.0提供的parser combinator并不能大量減少語法分析器的代碼量,其實真正降低的是語法分析器的復雜程度。當你想比較快速的完成一個功能的時候,有兩種代碼量差不多的設計,一種實現起來比較難并且調試起來很慘,一種實現起來比較簡單而且基本不用怎么調試,那相對來說肯定會選擇后一種方法了。除非你純粹是想獲得鍛煉。

                使用parser combinator開發語法分析器的時候,你可以直接往C++里面寫EBNF語法,當然語法的具體形式因為受到C++語言本身的限制我做了一點點修改,譬如說A*和A+只好寫成*A和+A,A B只好寫成A + B、A>>B或者A<<B了。空明流產跟我抱怨說boost::spirit編譯速度奇慢(據說要一個多小時,不知道是不是他機器太爛……)而且容易出現C1060 compiler is out of heap space的錯誤,相比之下我在用我自己開發的parser combinator的時候,我一個充滿語法的cpp文件只需要一秒多一點(Thinkpad R61i, Vista Home Basic, 3G內存),而且不會出現C1060這種離譜的錯誤。至少從這個程度上來說,開發boost::spirit的人應該是有很大的C++潔癖癥,才會把好好地一個parser combinator折騰成那個樣子。

                我是用的文法模型是帶類型修飾的文法,從文法的類型只能看出文法最終給你什么數據,而不是文法他本身是怎么寫的。Vczh Library++2.0的parser combinator采用了后面一中的做法,據說boost::spirit也是這么做的,不過奇怪的是舊的parser combinator也沒出現那兩種錯誤,取而代之是VC++經常抱怨我一個表達式的類型簽名超過了4000個字符(囧)。于是Vczh Library++3.0的parser combinator做了一點修改。

                假設你一條文法A的結果是node<input, type>,第二條文法B的結果是node<input, string>,那么A+B的結果就是node<input, pair<type, string>>。這是什么意義呢?我們看表達文法type name semicolon的意思,大概可以理解為他可以接受“int a;”的這種語句。首先由于C++的限制我們替換成type + name + semicolon,其次由于那個semicolon,也就是分號,其實僅僅是語法的要求而不是語法樹的一個必須成分,因此改成type + name << semicolon。這樣的話,這個文法依舊會要求輸入的字符串分別是一個類型、一個名字和一個分號,但是返回的結果就自動把分號給忽略掉了。那么我們如何表示一個同時包含type和name的類型呢?因為文法不可能替你創建一個struct,所以就定義了一個泛型的pair來表達。于是type + name << semicolon的結果類型就是node<input, pair<type, string>>了。這里input代表輸入的記號列表的類型。

                上面是新的parser combinator的做法,舊的parser combinator(據說也是boost::spirit的做法)的類型表示方法比較BT:當你有文法type : node<input, type>,string : node<input, string>和semicolon : node<input, token>的話,那么type + name << semicolon的類型會變成:
            1 discard_right<input, sequence<input, node<input, type>, node<input, string>>, node<input, token>>
                寫成這樣大概就可以理解什么是“文法他本身是怎么寫的”了吧。

                舊的parser combinator的好處是C++為每一個文法生成了一個類型,雖然代碼會膨脹一點但是執行過程會很快,只不過缺點比較多。第一個當然是類型太多VC++編譯器會崩潰(C1060 compiler is out of heap space),第二個是編譯時間過長,第三個是當你的文法比較長的時候,類型簽名可能會超過VC++給你的限制,然后就會出現奇怪的問題。所以我在Vczh Library++3.0的parser combinator就是用了一個新的做法,也就是僅保留文法的結果類型,所以也就不得不引入虛函數了。因為一個文法node<input, type>有非常多種組合可能,在結構上沒辦法表現出來,所以必須使用虛函數。

                在聽了空明流產的抱怨之后,我去搜了一下使用boost::spirit的人的反應,好像都是遇到了那兩個嚴重的問題。幸好我喜歡造車輪,不然的話也許也會深陷地獄了。不過boost::spirit還是提供了解決辦法的,就是把你的長的文法拆開成短的。寫過編譯器的人都會知道,這么做的嚴重后果就是你的分析器變成一團亂麻,根本不知道自己在寫什么,不僅不可能有我上一篇文章描寫的優美結果,更不可能把NativeX的分析器寫成下面這個樣子了:
             1                     primitive        = TRUE[ToTrue] | FALSE[ToFalse]
             2                                     | ACHAR[ToAChar] | WCHAR[ToWChar]
             3                                     | ASTRING[ToAString] | WSTRING[ToWString]
             4                                     | FLOAT[ToFloat] | DOUBLE[ToDouble]
             5                                     | NULL_VALUE[ToNull]
             6                                     | INTEGER[ToInteger]
             7                                     ;
             8                     reference        = ID[ToReference];
             9 
            10                     exp0            = primitive
            11                                     | reference
            12                                     | RESULT[ToResult]
            13                                     | (CAST + (LT >> type << GT) + (OPEN_BRACE >> exp << CLOSE_BRACE))[ToCastExpression]
            14                                     ;
            15                     exp1            = lrec(exp0 +  *(
            16                                                     (OPEN_ARRAY + exp0 << CLOSE_ARRAY)
            17                                                     | (OPEN_BRACE + list(opt(exp + *(COMMA >> exp)))[UpgradeArguments] << CLOSE_BRACE)
            18                                                     | ((DOT | POINTER) + reference)
            19                                                     | (INCREASE | DECREASE)[UpgradePostfix]
            20                                                     ), ToPostUnary);
            21                     exp2            = exp1 | ((INCREASE | DECREASE | BIT_AND | MUL | SUB | BIT_NOT | NOT) + exp1)[ToPreUnary];
            22                     exp3            = lrec(exp2 + *((MUL | DIV | MOD) + exp2), ToBinary);
            23                     exp4            = lrec(exp3 + *((ADD | SUB) + exp3), ToBinary);
            24                     exp5            = lrec(exp4 + *((SHL | SHR) + exp4), ToBinary);
            25                     exp6            = lrec(exp5 + *((LT | GT | LE | GE) + exp5), ToBinary);
            26                     exp7            = lrec(exp6 + *((EQ | NE) + exp6), ToBinary);
            27                     exp8            = lrec(exp7 + *(BIT_AND + exp7), ToBinary);
            28                     exp9            = lrec(exp8 + *(XOR + exp8), ToBinary);
            29                     exp10            = lrec(exp9 + *(BIT_OR + exp9), ToBinary);
            30                     exp11            = lrec(exp10 + *(AND + exp10), ToBinary);
            31                     exp12            = lrec(exp11 + *(OR + exp11), ToBinary);
            32                     exp                = lrec(exp12 + *((OP_ASSIGN | ASSIGN) + exp12), ToBinary);
            33 
            34                     primType        = (FUNCTION + type + (OPEN_BRACE >> list(opt(type + *(COMMA >> type))) << CLOSE_BRACE))[ToFunctionType]
            35                                     | (PRIM_TYPE | ID)[ToNamedType]
            36                                     ;
            37                     type            = lrec(primType + *(MUL | (OPEN_ARRAY >> INTEGER << CLOSE_ARRAY)), ToDecoratedType);
            38 
            39                     statement        = SEMICOLON[ToEmptyStat]
            40                                     | (exp + SEMICOLON)[ToExprStat]
            41                                     | (VARIABLE + type + ID + opt(ASSIGN >> exp) << SEMICOLON)[ToVarStat]
            42                                     | (IF + (OPEN_BRACE >> exp << CLOSE_BRACE) + statement + opt(ELSE >> statement))[ToIfStat]
            43                                     | (BREAK << SEMICOLON)[ToBreakStat]
            44                                     | (CONTINUE << SEMICOLON)[ToContinueStat]
            45                                     | (EXIT << SEMICOLON)[ToReturnStat]
            46                                     | (OPEN_STAT + list(*statement) << CLOSE_STAT)[ToCompositeStat]
            47                                     | (DO + statement + (WHILE >> OPEN_BRACE >> exp << CLOSE_BRACE << SEMICOLON))[ToDoWhileStat]
            48                                     | (LOOP + statement)[ToLoopStat]
            49                                     | (WHILE + (OPEN_BRACE >> exp << CLOSE_BRACE) + statement + opt(WHEN >> OPEN_BRACE >> exp << CLOSE_BRACE << SEMICOLON))[ToWhileStat]
            50                                     | (FOR + list(*statement) + (WHEN >> OPEN_BRACE >> exp << CLOSE_BRACE) + (WITH >> list(*statement)) + (DO >> statement))[ToForStat]
            51                                     ;
            52 
            53                     declaration        = (VARIABLE + type + ID + opt(ASSIGN >> exp) << SEMICOLON)[ToVarDecl]
            54                                     | (TYPE + ID + (ASSIGN >> type) << SEMICOLON)[ToTypedefDecl]
            55                                     | (STRUCTURE + ID << SEMICOLON)[ToStructPreDecl]
            56                                     | (STRUCTURE + ID + (OPEN_STAT >> *(type + ID << SEMICOLON) << CLOSE_STAT))[ToStructDecl]
            57                                     | (FUNCTION + type + ID + (OPEN_BRACE >> plist(opt((type + ID) + *(COMMA >> (type + ID)))) << CLOSE_BRACE) + statement)[ToFuncDecl]
            58                                     ;
            59 
            60                     unit            = ((UNIT >> ID << SEMICOLON) + list(opt(USES >> (ID + *(COMMA >> ID)) << SEMICOLON)) + list(*declaration))[ToUnit];

                啊,簡直就跟EBNF沒什么區別啊。

                當前的進度可以在Vczh Library++3.0的頁面上看到。
            posted on 2010-03-20 23:49 陳梓瀚(vczh) 閱讀(4556) 評論(2)  編輯 收藏 引用 所屬分類: VL++3.0開發紀事

            評論:
            # re: Vczh Library++3.0之我的語法分析器和boost::spirit 2010-03-20 23:58 | 空明流轉

            啊,簡直就跟EBNF沒什么區別啊。

            啊,簡直就跟YY沒什么區別啊。  回復  更多評論
              
            # re: Vczh Library++3.0之我的語法分析器和boost::spirit 2010-03-20 23:59 | 陳梓瀚(vczh)
            @空明流轉
            相比起來,boost::spirit寫出來的編譯器簡直就是石器時代的產品啊,啊哈哈  回復  更多評論
              
            色青青草原桃花久久综合| 亚洲精品乱码久久久久久按摩| 一级a性色生活片久久无| 久久精品国产亚洲精品2020 | 久久精品中文字幕大胸| 久久免费观看视频| 合区精品久久久中文字幕一区| 久久精品国产清自在天天线| 99久久www免费人成精品| 久久国产香蕉一区精品| 久久久久久国产精品无码下载 | 狠狠综合久久AV一区二区三区| 亚洲国产精品无码久久青草| 久久这里都是精品| 国产精品99久久久精品无码| 99精品国产99久久久久久97| 久久亚洲精精品中文字幕| 日韩人妻无码一区二区三区久久 | 久久久久久久久无码精品亚洲日韩| 亚洲国产精品无码久久| 99久久99久久精品国产片果冻 | 亚洲午夜久久久久久噜噜噜| 久久久久亚洲精品无码网址| 人妻无码久久精品| 无码专区久久综合久中文字幕| 久久久精品免费国产四虎| 香港aa三级久久三级| 久久综合视频网站| 无码精品久久久久久人妻中字| 国产精品久久毛片完整版| 久久亚洲高清综合| 久久婷婷五月综合97色| 久久99精品久久久久久秒播| 日韩欧美亚洲综合久久| 久久狠狠色狠狠色综合| 久久久久久国产a免费观看黄色大片 | 久久91综合国产91久久精品| 国产一区二区精品久久凹凸| 精品多毛少妇人妻AV免费久久| 久久天天躁夜夜躁狠狠| 青青草原综合久久|