歲月流轉，往昔空明

C++博客

首頁

新隨筆

聯系

聚合

管理

118 Posts :: 3 Stories :: 413 Comments :: 0 Trackbacks

實用編譯器構建指南（三）

起源：詞法分析

不管你學什么樣的外語，大約都是從詞匯開始。詞，是一個語言里最小的語義單元。編譯器閱讀你的語言，也是如此。所以第一件事情，就是要把整個文法打散成一個一個的單詞。在這里，我們把這些單詞叫token。

怎么進行詞法分析，此處就不再贅述，這是一個上下文無關文法的匹配問題。如果需要理解詞法分析的原理，或者手工編寫詞法分析工具，可以參考陳梓翰提供的兩篇極好的教程。在SASL里，我們不再發明輪子，而選用已有的詞法分析工具。

可選的詞法分析工具很多，例如出名的Lex及其改進Flex，ANTLR等。對于C++而言，這些方法多屬于產生式的方法，就是用一段不太靠譜的代碼去生成另外一些更不靠譜的代碼。更重要的是，這些代碼的編譯、調試都不方便。所以最終我們還是選擇了一個在用C++實現、并且可以直接在C++里書寫詞法和語法的分析器產生工具，它就是Spirit。

Spirit V1.8和V2.1都是Boost庫里的一個部分。需要注意的是，Spirit的V1和V2是完全不兼容的兩個庫。在這里，我們選擇了V2作為我們的詞法和語法分析工具。Spirit V2總共分為3個部分，負責語法分析的Qi，格式化打印的Karma，和詞法分析器Lex。此外，Spirit還有一個類似于boost.mpl和boost.lambda的庫phoenix，這個庫也常被用于詞法和語法分析中。詳細的使用指南和參考，可以參見Spirit的文檔。

由于Spirit.Lex大量運用了Template Meta-Programming和編譯器推導，因此編譯時很容易出錯，而且錯誤信息難于定位；同時Spirit.Lex的指南也寫得非常簡單，它所演示的特性，不足以用來實現一個完整的編譯器。因此，這里我們也將給出另外一個快速指南，以展示那些我們在撰寫編譯器時所用到的技術和特性。

這里我們仍然以A+B這樣一個簡單的表達式為例，其中A和B都是一個字面值的整數，A+B之間沒有其他空格填充。這樣我們就可以把這個“句子”拆分成A，+，B三個token。例如“33+65”就可以被拆分成“33”，“+”，“65”三個token。對于這樣一個表達式，我們只需要下面兩個正則就可以完成詞法分析：

literal_int = “[0-9]+”;
literal_add=”\+”;

由于C++里面“\”是轉義符，因此實際上literal_add實際上應該寫成“\\+”。然后我們需要用Spirit來實現。

Spirit中，首先定義一個tokens列表：

template <typename BaseLexerT>

struct sasl_tokens : public boost::spirit::lex::lexer< BaseLexerT > {

sasl_tokens(){

littok_int = "[0-9]+";

optok_add = "[\\+]";

this->self =

littok_int

| optok_add;

}

boost::spirit::lex::token_def<> littok_int, optok_add;

};

然后，我們利用這個token列表生成一個詞法分析器sasl_tokenizer：

typedef boost::spirit::lex::lexertl::lexer<> sasl_lexer_base;

typedef sasl_tokens<sasl_lexer_base> sasl_tokenizer;

最后來執行一下我們的tokenizer。在執行之前，我們寫一個callback函數，這個函數在每分析出一個詞之后，都會被調用一下，我們用它來判斷我們分出的詞正確與否：

struct token_printer{

template <typename TokenT> bool operator()( const TokenT& tok ){

cout << "token: " << tok.value() << endl;

return true;

}

};

最后執行一下詞法分析：

boost::spirit::lex::tokenize(first, last, sasl_tok, token_printer());

first，last是輸入字符串的迭代器。如果輸入為“55+65”，那么屏幕上就會依次打印出“55”，“+”，“65”的三行。

不過，如果你在“55+65”之間敲入一個空格，例如“55+_65”(‘_’代表空格)這樣的，那么詞法分析就會失敗。因為“_”這個字符，沒有合適的詞可以匹配。即便是匹配了，空白這個Token也沒辦法用在語法樹之中，最終也會導致語法分析失敗。而在程序語言里，支持空白符號的過濾掉是必不可少的。所以，下一次，我們就要將語法，順便過濾掉空白符，讓我們可以自由寫出美觀的語句。

posted on 2009-12-13 00:31 空明流轉閱讀(1850) 評論(2) 編輯收藏引用

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

歲月流轉，往昔空明

常用鏈接

留言簿(15)

隨筆檔案(118)

文章分類(3)

文章檔案(3)

收藏夾(1)

青青子衿

友情鏈接

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

起源：詞法分析

評論

只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理