摘要
經(jīng)過前面章節(jié)的準(zhǔn)備,到目前為止一個(gè)完整的C++應(yīng)用框架已經(jīng)完整的搭建 起來了?,F(xiàn)在的事情就是考慮如何利用這個(gè)框架來實(shí)現(xiàn)自己的目的功能程
序了。在這一章并不涉及到實(shí)際的開發(fā)而是先學(xué)習(xí)一下簡單的理論知識(shí)。 本章將會(huì)根據(jù)我的個(gè)人開發(fā)經(jīng)驗(yàn)來說明一下開發(fā)Lex和Yacc程序的一般開發(fā)
步驟,這里的內(nèi)容也會(huì)隨著后續(xù)的開發(fā)逐漸的完善起來,當(dāng)在后續(xù)的開發(fā) 中遇到不明白的地方可以回到這一章來看一看,也許就明白了:)
就我在開發(fā)Lex和Yacc程序的經(jīng)驗(yàn)來說,如果要解析一個(gè)文件,那么必須經(jīng)過 下面的步驟才能夠?qū)懗稣_的語法分析文件和詞法分析文件:
-
將被解析的文本進(jìn)行分類。
-
由分類構(gòu)成program。
-
將類及子類分解為標(biāo)記。
-
完成了上面的所有步驟之后,我們就已經(jīng)將被解析文本分解成功了,剩下的 事情就是為保存這些分解出來的信息而準(zhǔn)備好一個(gè)樹形數(shù)據(jù)結(jié)構(gòu),在這個(gè)時(shí) 候使用C++的優(yōu)勢(shì)就顯現(xiàn)出來了,我們可以借用STL里面的很多容器和算法的 。
將被解析的文本進(jìn)行分類,實(shí)際上是一件非常重要的事情,分類的好壞直接影響 到了后續(xù)的開發(fā),分類分的好能夠使得保存信息的數(shù)據(jù)結(jié)構(gòu)簡單明了和高效,但 是如果分得不好,可能導(dǎo)致冗余數(shù)據(jù)結(jié)構(gòu),大量得冗余信息以及需要全部修改代 碼。
先舉個(gè)實(shí)際的例子吧:C/C++源代碼。怎樣把C/C++源代碼中的語法元素用最少并
且能夠保存全部信息的數(shù)據(jù)結(jié)構(gòu)來表示,這本身就是一種挑戰(zhàn)。在C/C++的發(fā)展歷
程中也經(jīng)歷過大大小小的變動(dòng),這說明要想對(duì)C/C++源代碼中的語法元素進(jìn)行分類
是一件非常煩雜的事情,不過對(duì)于我們來說,這些語法元素已經(jīng)存在了好多年了, 我們不需要從來開始,而是可以直接利用已經(jīng)存在的知識(shí)來加快我們的開發(fā)。
C/C++的源代碼中的每一個(gè)語法元素可以作為一個(gè)分類,例如:關(guān)鍵字、預(yù)處理宏 、函數(shù)、變量、語句、結(jié)構(gòu)體、類、聯(lián)合體等等。
但是,并不是說這里的開發(fā)是一帆風(fēng)順的,在本類文檔的后續(xù)章節(jié)中也許會(huì)對(duì)這里
的類容進(jìn)行修正,這只能說明我們對(duì)于C/C++的語法構(gòu)成還是存在誤區(qū)而不是C/C++
語法本身有問題。對(duì)我們熟悉的問題尚且如此,那么對(duì)于我們不熟悉的問題更加如
此了,所以后續(xù)的開發(fā)中對(duì)前述代碼的修正也就難免了,這就是重構(gòu),使得代碼越 來越合理,越來越高效。
對(duì)于上一步已經(jīng)做好了的分類,最終的目的就是要用這些分類來成功的構(gòu)成最終的
C/C++源代碼。通過前面的章節(jié)的學(xué)習(xí),我們知道這里的program表達(dá)的就是C/C++
源代碼內(nèi)容,當(dāng)然你也可以用你自己喜歡的任何名字,例如“source”,這個(gè)就看 個(gè)人的喜好了,Lex和Yacc對(duì)這個(gè)沒有特別的要求。
這里我們采用program代表C/C++源代碼。上面的C/C++分類:關(guān)鍵字、預(yù)處理宏
、函數(shù)、變量、語句、結(jié)構(gòu)體、類、聯(lián)合體等等。在這一步里面就是考慮如何利
用這些分類來構(gòu)成完整的C/C++源代碼。這一步也充滿了挑戰(zhàn),但是相對(duì)于第一步
來說就容易多了,因?yàn)橛袚?jù)可尋啊。我們可以遵循Lex和Yacc規(guī)范來一步一步的 將上面的分類組合起來構(gòu)成C/C++源代碼。
常見的問題包括:
-
如何用有限的分類來構(gòu)成無限數(shù)量的文本(C/C++源代碼)
-
如何避免移進(jìn)和規(guī)約沖突
-
如何設(shè)置標(biāo)記(tokens)
上面的概念暫時(shí)只需要初步的了解,所謂的標(biāo)記就是能夠直接表示文本文檔(C/C++
源代碼)其中內(nèi)容的概念,例如關(guān)鍵字類可以通過int,long,char等等直接表示,那
么int,long,char就是標(biāo)記的值,標(biāo)記就是代表這些值的一個(gè)標(biāo)志而已,在Lex和
Yacc中就是用C宏來表示標(biāo)記的例如用INT宏表示int,LONG宏表示long,CHAR宏表示
char等等,但是INT宏,LONG宏和CHAR宏并不是直接定義為對(duì)應(yīng)的int,long,char
的,而僅僅只是一個(gè)整數(shù);另外還需要強(qiáng)調(diào)的是這里的INT宏,LONG宏和CHAR宏是自
己定義的,而不是Lex和Yacc內(nèi)置的,因此可以隨心所欲的定義,你完全可以用INT
表示char,LONG表示int,CHAR表示long等,但是這樣做并不好。關(guān)于這里的概念的 詳細(xì)內(nèi)容會(huì)在后續(xù)的開發(fā)中進(jìn)行詳細(xì)的解釋。
在對(duì)文本(C/C++源代碼)進(jìn)行了分類之后能否直接用標(biāo)記表達(dá)出來呢?一部分分類
可以用標(biāo)記直接表達(dá)出來了,還有一部分就不能或者不容易用標(biāo)記表達(dá)出來。對(duì)于
這些不能或者不容易用標(biāo)記表達(dá)出來的分類就還需要細(xì)分,這樣最終的目的就是將 所有的類都能夠用標(biāo)記表達(dá)出來。
舉個(gè)例子:在上面的C/C++源代碼分類中就有“語句”類,那么語句其實(shí)還可以細(xì)分 為空語句、簡單語句和復(fù)合語句三種,而且簡單語句和符合語句也還要通過其他的 標(biāo)記(標(biāo)識(shí)符,運(yùn)算符等等)進(jìn)一步表達(dá)。
當(dāng)所有的類以及子類都被標(biāo)記表達(dá)出來之后,Lex和Yacc程序也可以說完成了,但是
這僅僅只是在程序內(nèi)部將文本分析完成了,對(duì)于我們?nèi)藖碚f并沒有什么實(shí)際的作用
,我們最最希望的就是能夠?qū)⑦@些分析出來的信息保存為另外一種方便閱讀和理解 的方式。因此就需要自己另外設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu)來保存這些信息了,通常的情況
就是為每一個(gè)分類設(shè)計(jì)一個(gè)C++類,這樣就可以將文本的內(nèi)容以及結(jié)構(gòu)信息完整的保 存下來啦。
通常的做法就是將這些內(nèi)容和結(jié)構(gòu)信息以簡單的文本形式直接輸出,實(shí)際上真正的
應(yīng)用還需要對(duì)這些信息進(jìn)行認(rèn)真的處理之后再輸出。常見的應(yīng)用有:語法高亮,流
程圖自動(dòng)生成,VC中的類瀏覽,從C++源代碼自動(dòng)重新生成UML文檔,從源程序的注
釋自動(dòng)生成程序文檔(javadoc,doxygen)等等都是將分析出來的結(jié)構(gòu)信息和內(nèi)容
深入處理之后才輸出的。呵呵,不過當(dāng)您學(xué)會(huì)了Lex和Yacc之后,上面的這些應(yīng)用 對(duì)于您來說也不是什么大不了的事情啦:)
從上面的討論可以看出“分類”這一步是非常重要的步驟,占用的開發(fā)時(shí)間也是 非常多的,但是為了保證開發(fā)的正確性以及能夠保質(zhì)保量的完成任務(wù),就需要認(rèn) 真的重視這一步驟的重要性,多花些時(shí)間也是值得的。
好了,在這一章里面我討論了開發(fā)Lex和Yacc的一般步驟,但是算不上特別詳細(xì), 因?yàn)楸绢愇恼轮饕紤]的是一個(gè)應(yīng)用問題,強(qiáng)調(diào)的是應(yīng)用,對(duì)于那些特別理論的 東西我就在這里不多講了,如果需要深入的了解可以參看編譯原理相關(guān)書籍。
在后續(xù)的章節(jié)里面將會(huì)詳細(xì)的分析C/C++源文檔,采用的方法都是這里所陳述的 方法和步驟,如果在后續(xù)的章節(jié)中發(fā)現(xiàn)不太理解的地方可以參看這一章。
另外還需要格外說明的就是,因?yàn)槲覀兎治龅氖荂/C++源代碼,所以這里的分類就 已經(jīng)完成了,如果不太清楚可以參看C/C++語法說明。在后續(xù)的文檔中將會(huì)按照問 題的需要來組織文檔的結(jié)構(gòu)了:) 敬請(qǐng)關(guān)注!