隨筆-341 評論-2670 文章-0 trackbacks-0

    其實Vczh Library++3.0提供的parser combinator并不能大量減少語法分析器的代碼量，其實真正降低的是語法分析器的復雜程度。當你想比較快速的完成一個功能的時候，有兩種代碼量差不多的設計，一種實現起來比較難并且調試起來很慘，一種實現起來比較簡單而且基本不用怎么調試，那相對來說肯定會選擇后一種方法了。除非你純粹是想獲得鍛煉。

    使用parser combinator開發語法分析器的時候，你可以直接往C++里面寫EBNF語法，當然語法的具體形式因為受到C++語言本身的限制我做了一點點修改，譬如說A*和A+只好寫成*A和+A，A B只好寫成A + B、A>>B或者A<<B了。空明流產跟我抱怨說boost::spirit編譯速度奇慢（據說要一個多小時，不知道是不是他機器太爛……）而且容易出現C1060 compiler is out of heap space的錯誤，相比之下我在用我自己開發的parser combinator的時候，我一個充滿語法的cpp文件只需要一秒多一點（Thinkpad R61i, Vista Home Basic, 3G內存），而且不會出現C1060這種離譜的錯誤。至少從這個程度上來說，開發boost::spirit的人應該是有很大的C++潔癖癥，才會把好好地一個parser combinator折騰成那個樣子。

    我是用的文法模型是帶類型修飾的文法，從文法的類型只能看出文法最終給你什么數據，而不是文法他本身是怎么寫的。Vczh Library++2.0的parser combinator采用了后面一中的做法，據說boost::spirit也是這么做的，不過奇怪的是舊的parser combinator也沒出現那兩種錯誤，取而代之是VC++經常抱怨我一個表達式的類型簽名超過了4000個字符（囧）。于是Vczh Library++3.0的parser combinator做了一點修改。

    假設你一條文法A的結果是node<input, type>，第二條文法B的結果是node<input, string>，那么A+B的結果就是node<input, pair<type, string>>。這是什么意義呢？我們看表達文法type name semicolon的意思，大概可以理解為他可以接受“int a;”的這種語句。首先由于C++的限制我們替換成type + name + semicolon，其次由于那個semicolon，也就是分號，其實僅僅是語法的要求而不是語法樹的一個必須成分，因此改成type + name << semicolon。這樣的話，這個文法依舊會要求輸入的字符串分別是一個類型、一個名字和一個分號，但是返回的結果就自動把分號給忽略掉了。那么我們如何表示一個同時包含type和name的類型呢？因為文法不可能替你創建一個struct，所以就定義了一個泛型的pair來表達。于是type + name << semicolon的結果類型就是node<input, pair<type, string>>了。這里input代表輸入的記號列表的類型。

    上面是新的parser combinator的做法，舊的parser combinator（據說也是boost::spirit的做法）的類型表示方法比較BT：當你有文法type : node<input, type>，string : node<input, string>和semicolon : node<input, token>的話，那么type + name << semicolon的類型會變成：

1 discard_right<input, sequence<input, node<input, type>, node<input, string>>, node<input, token>>

    寫成這樣大概就可以理解什么是“文法他本身是怎么寫的”了吧。

    舊的parser combinator的好處是C++為每一個文法生成了一個類型，雖然代碼會膨脹一點但是執行過程會很快，只不過缺點比較多。第一個當然是類型太多VC++編譯器會崩潰（C1060 compiler is out of heap space），第二個是編譯時間過長，第三個是當你的文法比較長的時候，類型簽名可能會超過VC++給你的限制，然后就會出現奇怪的問題。所以我在Vczh Library++3.0的parser combinator就是用了一個新的做法，也就是僅保留文法的結果類型，所以也就不得不引入虛函數了。因為一個文法node<input, type>有非常多種組合可能，在結構上沒辦法表現出來，所以必須使用虛函數。

    在聽了空明流產的抱怨之后，我去搜了一下使用boost::spirit的人的反應，好像都是遇到了那兩個嚴重的問題。幸好我喜歡造車輪，不然的話也許也會深陷地獄了。不過boost::spirit還是提供了解決辦法的，就是把你的長的文法拆開成短的。寫過編譯器的人都會知道，這么做的嚴重后果就是你的分析器變成一團亂麻，根本不知道自己在寫什么，不僅不可能有我上一篇文章描寫的優美結果，更不可能把NativeX的分析器寫成下面這個樣子了：

1                     primitive        = TRUE[ToTrue] | FALSE[ToFalse]
2                                     | ACHAR[ToAChar] | WCHAR[ToWChar]
3                                     | ASTRING[ToAString] | WSTRING[ToWString]
4                                     | FLOAT[ToFloat] | DOUBLE[ToDouble]
5                                     | NULL_VALUE[ToNull]
6                                     | INTEGER[ToInteger]
7                                     ;
8                     reference        = ID[ToReference];
9
10                     exp0            = primitive
11                                     | reference
12                                     | RESULT[ToResult]
13                                     | (CAST + (LT >> type << GT) + (OPEN_BRACE >> exp << CLOSE_BRACE))[ToCastExpression]
14                                     ;
15                     exp1            = lrec(exp0 +  *(
16                                                     (OPEN_ARRAY + exp0 << CLOSE_ARRAY)
17                                                     | (OPEN_BRACE + list(opt(exp + *(COMMA >> exp)))[UpgradeArguments] << CLOSE_BRACE)
18                                                     | ((DOT | POINTER) + reference)
19                                                     | (INCREASE | DECREASE)[UpgradePostfix]
20                                                     ), ToPostUnary);
21                     exp2            = exp1 | ((INCREASE | DECREASE | BIT_AND | MUL | SUB | BIT_NOT | NOT) + exp1)[ToPreUnary];
22                     exp3            = lrec(exp2 + *((MUL | DIV | MOD) + exp2), ToBinary);
23                     exp4            = lrec(exp3 + *((ADD | SUB) + exp3), ToBinary);
24                     exp5            = lrec(exp4 + *((SHL | SHR) + exp4), ToBinary);
25                     exp6            = lrec(exp5 + *((LT | GT | LE | GE) + exp5), ToBinary);
26                     exp7            = lrec(exp6 + *((EQ | NE) + exp6), ToBinary);
27                     exp8            = lrec(exp7 + *(BIT_AND + exp7), ToBinary);
28                     exp9            = lrec(exp8 + *(XOR + exp8), ToBinary);
29                     exp10            = lrec(exp9 + *(BIT_OR + exp9), ToBinary);
30                     exp11            = lrec(exp10 + *(AND + exp10), ToBinary);
31                     exp12            = lrec(exp11 + *(OR + exp11), ToBinary);
32                     exp                = lrec(exp12 + *((OP_ASSIGN | ASSIGN) + exp12), ToBinary);
33
34                     primType        = (FUNCTION + type + (OPEN_BRACE >> list(opt(type + *(COMMA >> type))) << CLOSE_BRACE))[ToFunctionType]
35                                     | (PRIM_TYPE | ID)[ToNamedType]
36                                     ;
37                     type            = lrec(primType + *(MUL | (OPEN_ARRAY >> INTEGER << CLOSE_ARRAY)), ToDecoratedType);
38
39                     statement        = SEMICOLON[ToEmptyStat]
40                                     | (exp + SEMICOLON)[ToExprStat]
41                                     | (VARIABLE + type + ID + opt(ASSIGN >> exp) << SEMICOLON)[ToVarStat]
42                                     | (IF + (OPEN_BRACE >> exp << CLOSE_BRACE) + statement + opt(ELSE >> statement))[ToIfStat]
43                                     | (BREAK << SEMICOLON)[ToBreakStat]
44                                     | (CONTINUE << SEMICOLON)[ToContinueStat]
45                                     | (EXIT << SEMICOLON)[ToReturnStat]
46                                     | (OPEN_STAT + list(*statement) << CLOSE_STAT)[ToCompositeStat]
47                                     | (DO + statement + (WHILE >> OPEN_BRACE >> exp << CLOSE_BRACE << SEMICOLON))[ToDoWhileStat]
48                                     | (LOOP + statement)[ToLoopStat]
49                                     | (WHILE + (OPEN_BRACE >> exp << CLOSE_BRACE) + statement + opt(WHEN >> OPEN_BRACE >> exp << CLOSE_BRACE << SEMICOLON))[ToWhileStat]
50                                     | (FOR + list(*statement) + (WHEN >> OPEN_BRACE >> exp << CLOSE_BRACE) + (WITH >> list(*statement)) + (DO >> statement))[ToForStat]
51                                     ;
52
53                     declaration        = (VARIABLE + type + ID + opt(ASSIGN >> exp) << SEMICOLON)[ToVarDecl]
54                                     | (TYPE + ID + (ASSIGN >> type) << SEMICOLON)[ToTypedefDecl]
55                                     | (STRUCTURE + ID << SEMICOLON)[ToStructPreDecl]
56                                     | (STRUCTURE + ID + (OPEN_STAT >> *(type + ID << SEMICOLON) << CLOSE_STAT))[ToStructDecl]
57                                     | (FUNCTION + type + ID + (OPEN_BRACE >> plist(opt((type + ID) + *(COMMA >> (type + ID)))) << CLOSE_BRACE) + statement)[ToFuncDecl]
58                                     ;
59
60                     unit            = ((UNIT >> ID << SEMICOLON) + list(opt(USES >> (ID + *(COMMA >> ID)) << SEMICOLON)) + list(*declaration))[ToUnit];

啊，簡直就跟EBNF沒什么區別啊。

當前的進度可以在Vczh Library++3.0的頁面上看到。

posted on 2010-03-20 23:49 陳梓瀚(vczh) 閱讀(4573) 評論(2) 編輯收藏引用所屬分類: VL++3.0開發紀事

評論:

# re: Vczh Library++3.0之我的語法分析器和boost::spirit 2010-03-20 23:58 | 空明流轉

啊，簡直就跟EBNF沒什么區別啊。

啊，簡直就跟YY沒什么區別啊。回復更多評論

# re: Vczh Library++3.0之我的語法分析器和boost::spirit 2010-03-20 23:59 | 陳梓瀚(vczh)

@空明流轉
相比起來，boost::spirit寫出來的編譯器簡直就是石器時代的產品啊，啊哈哈回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。


相關文章: 淺談面向對象語言的類型運算 Vczh Library++3.0之ManagedX語言檢查類型的可見性 Vczh Library++3.0之山寨mscorlib.dll Vczh Library++3.0之如何把C#屬性parse出來的超長pair鏈表賦值到語法書上 Vczhl Library++3.0之Parser Combinator為常見的語法結構做優化 Vczh Library++3.0托管語言語法樹完成 Vczh Library++3.0第一階段宣告結束 Vczh Library++3.0開發紀事之流式xml和json讀寫 Vczh Library++3.0第一個Release提供下載！ Vczh Library++ 3.0之烏龜畫圖Demo接近完工

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

留言簿(70)

隨筆分類(347)

好友博客

Graphixer
何詠師弟的圖形學網站
jetricy
Jetricy的技術博客
KlayGE游戲引擎
叛叛大神
Lomox UI框架
Lomox UI框架
MiGL
Tyeah的博客
vczh的百度空間
vczh的百度空間
YMK的后花園
YMK的技術博客
德利菲
德利菲的技術博客
怪盜KID的游戲開發博客
怪盜KID的游戲開發博客
華工微軟俱樂部
華南理工大學微軟俱樂部科技部博客
開發視界
開發視界 - 移動開發社區
老趙點滴
趙姐夫的.net博客
臨淵羨魚，不如退而山寨
另一個SOS團的C++程序員……
某白食(Lyt)
某白食的C++博客
歲月流轉，往昔空明
空明流轉的blog
微軟一站式實例代碼庫
500個經典示例，速學速用，效率倍增。
我在博客園的blog
我在博客園的blog
一個不靠譜的程序員
JeffChen的技術博客

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

留言簿(70)

隨筆分類(347)

好友博客

搜索

最新評論

閱讀排行榜

評論排行榜