1、解析器與解釋器
解析器是parser,而解釋器是interpreter。兩者不是同一樣東西,不應該混用。
前者是編譯器/解釋器的重要組成部分,也可以用在IDE之類的地方;其主要作用是進行語法分析,提取出句子的結構。廣義來說輸入一般是程序的源碼,輸出一般是語法樹(syntax tree,也叫parse tree等)或抽象語法樹(abstract syntax tree,AST)。進一步剝開來,廣義的解析器里一般會有掃描器(scanner,也叫tokenizer或者lexical analyzer,詞法分析器),以及狹義的解析器(parser,也叫syntax analyzer,語法分析器)。掃描器的輸入一般是文本,經過詞法分析,輸出是將文本切割為單詞的流。狹義的解析器輸入是單詞的流,經過語法分析,輸出是語法樹或者精簡過的AST。
(在一些編譯器/解釋器中,解析也可能與后續的語義分析、代碼生成或解釋執行等步驟融合在一起,不一定真的會構造出完整的語法樹。但概念上說解析器就是用來抽取句子結構用的,而語法樹就是表示句子結構的方式。關于邊解析邊解釋執行的例子,可以看看
這帖的計算器。)
舉例:將i = a + b * c作為源代碼輸入到解析器里,則廣義上的解析器的工作流程如下圖:

其中詞法分析由掃描器完成,語法分析由狹義的解析器完成。
(嗯,說來其實“解析器”這詞還是按狹義用法比較準確。把掃描器和解析器合起來叫解析器總覺得怪怪的,但不少人這么用,這里就將就下吧 =_=
不過近來“
scannerless parsing”也挺流行的:不區分詞法分析與語法分析,沒有單獨的掃描器,直接用解析器從源碼生成語法樹。這倒整個就是解析器了,沒狹不狹義的問題)
后者則是實現程序執行的一種實現方式,與編譯器相對。它直接實現程序源碼的語義,輸入是程序源碼,輸出則是執行源碼得到的計算結果;編譯器的輸入與解釋器相同,而輸出是用別的語言實現了輸入源碼的語義的程序。通常編譯器的輸入語言比輸出語言高級,但不一定;也有輸入輸出是同種語言的情況,此時編譯器很可能主要用于優化代碼。
舉例:把同樣的源碼分別輸入到編譯器與解釋器中,得到的輸出不同:

值得留意的是,編譯器生成出來的代碼執行后的結果應該跟解釋器輸出的結果一樣——它們都應該實現源碼所指定的語義。
在很多地方都看到解析器與解釋器兩個不同的東西被混為一談,感到十分無奈。
最近某本引起很多關注的書便在開篇給讀者們當頭一棒,介紹了“
JavaScript解析機制”。“編譯”和“預處理”也順帶混為一談了,還有“預編譯” 0_0
我一直以為“預編譯”應該是
ahead-of-time compilation的翻譯,是與“即時編譯”(just-in-time compilation,JIT)相對的概念。另外就是PCH(precompile header)這種用法,把以前的編譯結果緩存下來稱為“預編譯”。把AOT、PCH跟“預處理”(
preprocess)混為一談真是詭異。算了,我還是不要淌這渾水的好……打住。
2、“解釋器”到底是什么?“解釋型語言”呢?
很多資料會說,Python、Ruby、JavaScript都是“解釋型語言”,是通過解釋器來實現的。這么說其實很容易引起誤解:語言一般只會定義其抽象語義,而不會強制性要求采用某種實現方式。
例如說C一般被認為是“編譯型語言”,但C的解釋器也是存在的,例如
Ch。同樣,C++也有解釋器版本的實現,例如
Cint。
一般被稱為“解釋型語言”的是主流實現為解釋器的語言,但并不是說它就無法編譯。例如說經常被認為是“解釋型語言”的
Scheme就有好幾種編譯器實現,其中率先支持
R6RS規范的大部分內容的是
Ikarus,支持在x86上編譯Scheme;它最終不是生成某種虛擬機的字節碼,而是直接生成x86機器碼。
解釋器就是個黑箱,輸入是源碼,輸出就是輸入程序的執行結果,對用戶來說中間沒有獨立的“編譯”步驟。這非常抽象,內部是怎么實現的都沒關系,只要能實現語義就行。你可以寫一個C語言的解釋器,里面只是先用普通的C編譯器把源碼編譯為in-memory image,然后直接調用那個image去得到運行結果;用戶拿過去,發現直接輸入源碼可以得到源程序對應的運行結果就滿足需求了,無需在意解釋器這個“黑箱子”里到底是什么。
實際上很多解釋器內部是以“編譯器+虛擬機”的方式來實現的,先通過編譯器將源碼轉換為AST或者字節碼,然后由虛擬機去完成實際的執行。所謂“解釋型語言”并不是不用編譯,而只是不需要用戶顯式去使用編譯器得到可執行代碼而已。
那么虛擬機(
virtual machine,VM)又是什么?在許多不同的場合,VM有著不同的意義。如果上下文是Java、Python這類語言,那么一般指的是高級語言虛擬機(high-level language virtual machine,HLL VM),其意義是實現高級語言的語義。VM既然被稱為“機器”,一般認為輸入是滿足某種指令集架構(
instruction set architecture,ISA)的指令序列,中間轉換為目標ISA的指令序列并加以執行,輸出為程序的執行結果的,就是VM。源與目標ISA可以是同一種,這是所謂same-ISA VM。
前面提到解釋器中的編譯器的輸出可能是AST,也可能是字節碼之類的指令序列;一般會把執行后者的程序稱為VM,而執行前者的還是籠統稱為解釋器或者樹遍歷式解釋器(tree-walking interpreter)。這只是種習慣而已,并沒有多少確鑿的依據。只不過線性(相對于樹形)的指令序列看起來更像一般真正機器會執行的指令序列而已。
其實我覺得把執行AST的也叫VM也沒啥大問題。如果認同這個觀點,那么把
DLR看作一種VM也就可以接受了——它的“指令集”就是樹形的Expression Tree。
VM并不是神奇的就能執行代碼了,它也得采用某種方式去實現輸入程序的語義,并且同樣有幾種選擇:“編譯”,例如微軟的.NET中的CLR;“解釋”,例如CPython、CRuby 1.9,許多老的JavaScript引擎等;也有介于兩者之間的混合式,例如Sun的JVM,
HotSpot。如果采用編譯方式,VM會把輸入的指令先轉換為某種能被底下的系統直接執行的形式(一般就是native code),然后再執行之;如果采用解釋方式,則VM會把輸入的指令逐條直接執行。
換個角度說,我覺得采用編譯和解釋方式實現虛擬機最大的區別就在于是否存下目標代碼:編譯的話會把輸入的源程序以某種單位(例如
基本塊/函數/方法/trace等)翻譯生成為目標代碼,并存下來(無論是存在內存中還是磁盤上,無所謂),后續執行可以復用之;解釋的話則把源程序中的指令是逐條解釋,不生成也不存下目標代碼,后續執行沒有多少可復用的信息。有些稍微先進一點的解釋器可能會優化輸入的源程序,把滿足某些模式的指令序列合并為“超級指令”;這么做就是朝著編譯的方向推進。后面講到解釋器的演化時再討論超級指令吧。
如果一種語言的主流實現是解釋器,其內部是編譯器+虛擬機,而虛擬機又是采用解釋方式實現的,或者內部實現是編譯器+樹遍歷解釋器,那它就是名副其實的“解釋型語言”。如果內部用的虛擬機是用編譯方式實現的,其實跟普遍印象中的“解釋器”還是挺不同的……
可以舉這樣一個例子:ActionScript 3,一般都被認為是“解釋型語言”對吧?但這種觀點到底是把FlashPlayer整體看成一個解釋器,因而AS3是“解釋型語言”呢?還是認為FlashPlayer中的虛擬機采用解釋執行方案,因而AS3是“解釋型語言”呢?
其實Flash或Flex等從AS3生成出來的SWF文件里就包含有AS字節碼(ActionScript Byte Code,ABC)。等到FlashPlayer去執行SWF文件,或者說等到AVM2(ActionScript Virtual Machine 2)去執行ABC時,又有解釋器和JIT編譯器兩種實現。這種需要讓用戶顯式進行編譯步驟的語言,到底是不是“解釋型語言”呢?呵呵。所以我一直覺得“編譯型語言”跟“解釋型語言”的說法太模糊,不太好。
有興趣想體驗一下從命令行編譯“裸”的AS3文件得到ABC文件,再從命令行調用AVM2去執行ABC文件的同學,可以從
這帖下載我之前從源碼編譯出來的AVM2,自己玩玩看。例如說要編譯一個名為test.as的文件,用下列命令:
java -jar asc.jar -import builtin.abc -import toplevel.abc test.as
就是用ASC將test.as編譯,得到test.abc。接著用:
avmplus test.abc
就是用AVM2去執行程序了。很生動的體現出“編譯器+虛擬機”的實現方式。
這個“裸”的AVM2沒有帶Flash或Flex的類庫,能用的函數和類都有限。不過AS3語言實現是完整的。可以用print()函數來向標準輸出流寫東西。
Well……其實寫Java程序不也是這樣么?現在也確實還有很多人把Java稱為“解釋型語言”,完全無視Java代碼通常是經過顯式編譯步驟才得到.class文件,而有些JVM是采用純JIT編譯方式實現的,內部沒解釋器,例如
Jikes RVM。我愈發感到“解釋型語言”是個應該避開的用語 =_=
關于虛擬機,有本很好的書絕對值得一讀,《虛擬機——系統與進程的通用平臺》(Virtual Machines: Versatile Platforms for Systems and Processes)。國內有影印版也有中文版,我是讀了影印版,不太清楚中文版的翻譯質量如何。據說翻譯得還行,我無法印證。
3、基于棧與基于寄存器的指令集架構
用C的語法來寫這么一個語句:
a = b + c;
如果把它變成這種形式:
add a, b, c
那看起來就更像機器指令了,對吧?這種就是所謂“三地址指令”(3-address instruction),一般形式為:
op dest, src1, src2
許多操作都是二元運算+賦值。三地址指令正好可以指定兩個源和一個目標,能非常靈活的支持二元操作與賦值的組合。ARM處理器的主要指令集就是三地址形式的。
C里要是這樣寫的話:
a += b;
變成:
add a, b
這就是所謂“二地址指令”,一般形式為:
op dest, src
它要支持二元操作,就只能把其中一個源同時也作為目標。上面的add a, b在執行過后,就會破壞a原有的值,而b的值保持不變。x86系列的處理器就是二地址形式的。
上面提到的三地址與二地址形式的指令集,一般就是通過“基于寄存器的架構”來實現的。例如典型的RISC架構會要求除load和store以外,其它用于運算的指令的源與目標都要是寄存器。
顯然,指令集可以是任意“n地址”的,n屬于自然數。那么一地址形式的指令集是怎樣的呢?
想像一下這樣一組指令序列:
add 5
sub 3
這只指定了操作的源,那目標是什么?一般來說,這種運算的目標是被稱為“累加器”(accumulator)的專用寄存器,所有運算都靠更新累加器的狀態來完成。那么上面兩條指令用C來寫就類似:
acc += 5;
acc -= 3;
只不過acc是“隱藏”的目標。基于累加器的架構近來比較少見了,在很老的機器上繁榮過一段時間。
那“n地址”的n如果是0的話呢?
看這樣一段Java字節碼:
iconst_1
iconst_2
iadd
istore_0
注意那個iadd(表示整型加法)指令并沒有任何參數。連源都無法指定了,零地址指令有什么用??
零地址意味著源與目標都是隱含參數,其實現依賴于一種常見的數據結構——沒錯,就是棧。上面的iconst_1、iconst_2兩條指令,分別向一個叫做“求值棧”(evaluation stack,也叫做operand stack“操作數棧”或者expression stack“表達式棧”)的地方壓入整型常量1、2。iadd指令則從求值棧頂彈出2個值,將值相加,然后把結果壓回到棧頂。istore_0指令從求值棧頂彈出一個值,并將值保存到局部變量區的第一個位置(slot 0)。
零地址形式的指令集一般就是通過“基于棧的架構”來實現的。請一定要注意,這個棧是指“求值棧”,而不是與系統調用棧(system call stack,或者就叫system stack)。千萬別弄混了。有些虛擬機把求值棧實現在系統調用棧上,但兩者概念上不是一個東西。
由于指令的源與目標都是隱含的,零地址指令的“密度”可以非常高——可以用更少空間放下更多條指令。因此在空間緊缺的環境中,零地址指令是種可取的設計。但零地址指令要完成一件事情,一般會比二地址或者三地址指令許多更多條指令。上面Java字節碼做的加法,如果用x86指令兩條就能完成了:
mov eax, 1
add eax, 2
(好吧我犯規了,istore_0對應的保存我沒寫。但假如局部變量比較少的話也不必把EAX的值保存(“溢出”,register spilling)到調用棧上,就這樣吧 =_=
其實就算把結果保存到棧上也就是多一條指令而已……)
一些比較老的解釋器,例如
CRuby在1.9引入
YARV作為新的VM之前的解釋器,還有SquirrleFish之前的老JavaScriptCore,它們內部是樹遍歷式解釋器;解釋器遞歸遍歷樹,樹的每個節點的操作依賴于解釋其各個子節點返回的值。這種解釋器里沒有所謂的求值棧,也沒有所謂的虛擬寄存器,所以不適合以“基于棧”或“基于寄存器”去描述。
而像V8那樣直接編譯JavaScript生成機器碼,而不通過中間的字節碼的中間表示的JavaScript引擎,它內部有虛擬寄存器的概念,但那只是普通native編譯器的正常組成部分。我覺得也不應該用“基于棧”或“基于寄存器”去描述它。
V8在內部也用了“求值棧”(在V8里具體叫“表達式棧”)的概念來簡化生成代碼的過程,使用所謂“虛擬棧幀”來記錄局部變量與求值棧的狀態;但在真正生成代碼的時候會做窺孔優化,消除冗余的push/pop,將許多對求值棧的操作轉變為對寄存器的操作,以此提高代碼質量。于是最終生成出來的代碼看起來就不像是基于棧的代碼了。
關于JavaScript引擎的實現方式,下文會再提到。
4、基于棧與基于寄存器架構的VM,用哪個好?
如果是要模擬現有的處理器,那沒什么可選的,原本處理器采用了什么架構就只能以它為源。但HLL VM的架構通常可以自由構造,有很大的選擇余地。為什么許多主流HLL VM,諸如JVM、CLI、CPython、CRuby 1.9等,都采用了基于棧的架構呢?我覺得這有三個主要原因:
·實現簡單
由于指令中不必顯式指定源與目標,VM可以設計得很簡單,不必考慮為臨時變量分配空間的問題,求值過程中的臨時數據存儲都讓求值棧包辦就行。
更新:回帖中cscript指出了這句不太準確,應該是針對基于棧架構的指令集生成代碼的編譯器更容易實現,而不是VM更容易實現。·該VM是為某類資源非常匱乏的硬件而設計的
這類硬件的存儲器可能很小,每一字節的資源都要節省。零地址指令比其它形式的指令更緊湊,所以是個自然的選擇。
·考慮到可移植性
處理器的特性各個不同:典型的CISC處理器的通用寄存器數量很少,例如32位的
x86就只有8個32位通用寄存器(如果不算EBP和ESP那就是6個,現在一般都算上);典型的RISC處理器的各種寄存器數量多一些,例如
ARM有16個32位通用寄存器,Sun的
SPARC在一個寄存器窗口里則有24個通用寄存器(8 in,8 local,8 out)。
假如一個VM采用基于寄存器的架構(它接受的指令集大概就是二地址或者三地址形式的),為了高效執行,一般會希望能把源架構中的寄存器映射到實際機器上寄存器上。但是VM里有些很重要的輔助數據會經常被訪問,例如一些VM會保存源指令序列的程序計數器(program counter,PC),為了效率,這些數據也得放在實際機器的寄存器里。如果源架構中寄存器的數量跟實際機器的一樣,或者前者比后者更多,那源架構的寄存器就沒辦法都映射到實際機器的寄存器上;這樣VM實現起來比較麻煩,與能夠全部映射相比效率也會大打折扣。
如果一個VM采用基于棧的架構,則無論在怎樣的實際機器上,都很好實現——它的源架構里沒有任何通用寄存器,所以實現VM時可以比較自由的分配實際機器的寄存器。于是這樣的VM可移植性就比較高。作為優化,基于棧的VM可以用編譯方式實現,“求值棧”實際上也可以由編譯器映射到寄存器上,減輕數據移動的開銷。
回到主題,基于棧與基于寄存器的架構,誰更快?看看現在的實際處理器,大多都是基于寄存器的架構,從側面反映出它比基于棧的架構更優秀。
而對于VM來說,源架構的求值棧或者寄存器都可能是用實際機器的內存來模擬的,所以性能特性與實際硬件又有點不同。一般認為基于寄存器的架構對VM來說也是更快的,原因是:雖然零地址指令更緊湊,但完成操作需要更多的load/store指令,也意味著更多的指令分派(instruction dispatch)次數與內存訪問次數;訪問內存是執行速度的一個重要瓶頸,二地址或三地址指令雖然每條指令占的空間較多,但總體來說可以用更少的指令完成操作,指令分派與內存訪問次數都較少。
這方面有篇被引用得很多的論文講得比較清楚,
Virtual Machine Showdown: Stack Versus Registers,是在VEE 2005發表的。VEE是Virtual Execution Environment的縮寫,是ACM下SIGPLAN組織的一個會議,專門研討虛擬機的設計與實現的。可以去找找這個會議往年的論文,很多都值得讀。
5、樹遍歷解釋器圖解
在演示基于棧與基于寄存器的VM的例子前,先回頭看看更原始的解釋器形式。
前面提到解析器的時候用了i = a + b * c的例子,現在讓我們來看看由解析器生成的AST要是交給一個樹遍歷解釋器,會如何被解釋執行呢?
用文字說不夠形象,還是看圖吧:

這是對AST的后序遍歷:假設有一個eval(Node n)函數,用于解釋AST上的每個節點;在解釋一個節點時如果依賴于子樹的操作,則對子節點遞歸調用eval(Node n),從這些遞歸調用的返回值獲取需要的值(或副作用)——也就是說子節點都eval好了之后,父節點才能進行自己的eval——典型的后序遍歷。
(話說,上圖中節點左下角有藍色標記的說明那是節點的“內在屬性”。從
屬性語法的角度看,如果一個節點的某個屬性的值只依賴于自身或子節點,則該屬性被稱為“綜合屬性”(synthesized attribute);如果一個節點的某個屬性只依賴于自身、父節點和兄弟節點,則該屬性被稱為“繼承屬性”(inherited attribute)。上圖中節點右下角的紅色標記都只依賴子節點來計算,顯然是綜合屬性。)
SquirrelFish之前的JavaScriptCore、CRuby 1.9之前的CRuby就都是采用這種方式來解釋執行的。
可能需要說明的:
·左值與右值
在源代碼i = a + b * c中,賦值符號左側的i是一個標識符,表示一個變量,取的是變量的“左值”(也就是與變量i綁定的存儲單元);右側的a、b、c雖然也是變量,但取的是它們的右值(也就是與變量綁定的存儲單元內的值)。在許多編程語言中,左值與右值在語法上沒有區別,它們實質的差異容易被忽視。一般來說左值可以作為右值使用,反之則不一定。例如數字1,它自身有值就是1,可以作為右值使用;但它沒有與可賦值的存儲單元相綁定,所以無法作為左值使用。
左值不一定只是簡單的變量,還可以是數組元素或者結構體的域之類,可能由復雜的表達式所描述。因此左值也是需要計算的。
·優先級、結合性與求值順序
這三個是不同的概念,卻經常被混淆。通過AST來看就很容易理解:(假設源碼是從左到右輸入的)
所謂
優先級,就是不同操作相鄰出現時,AST節點與根的距離的關系。優先級高的操作會更遠離根,優先級低的操作會更接近根。為什么?因為整棵AST是以后序遍歷求值的,顯然節點離根越遠就越早被求值。
所謂
結合性,就是當同類操作相鄰出現時,操作的先后順序同AST節點與根的距離的關系。如果是左結合,則先出現的操作對應的AST節點比后出現的操作的節點離根更遠;換句話說,先出現的節點會是后出現節點的子節點。
所謂
求值順序,就是在遍歷子節點時的順序。對二元運算對應的節點來說,先遍歷左子節點再遍歷右子節點就是左結合,反之則是右結合。
這三個概念與運算的聯系都很緊密,但實際描述的是不同的關系。前兩者是解析器根據語法生成AST時就已經決定好的,后者則是解釋執行或者生成代碼而去遍歷AST時決定的。
在沒有副作用的環境中,給定優先級與結合性,則無論求值順序是怎樣的都能得到同樣的結果;而在有副作用的環境中,求值順序會影響結果。
賦值運算雖然是右結合的,但仍然可以用從左到右的求值順序;事實上Java、C#等許多語言都在規范里寫明表達式的求值順序是從左到右的。上面的例子中就先遍歷的=的左側,求得i的左值;再遍歷=的右側,得到表達式的值23;最后執行=自身,完成對i的賦值。
所以如果你要問:賦值在類似C的語言里明明是右結合的運算,為什么你先遍歷左子樹再遍歷右子樹?上面的說明應該能讓你發現你把結合性與求值順序混為一談了。
看看Java從左到右求值順序的例子:
public class EvalOrderDemo {
public static void main(String[] args) {
int[] arr = new int[1];
int a = 1;
int b = 2;
arr[0] = a + b;
}
}
由javac編譯,得到arr[0] = a + b對應的字節碼是:
// 左子樹:數組下標
// a[0]
aload_1
iconst_0
// 右子樹:加法
// a
iload_2
// b
iload_3
// +
iadd
// 根節點:賦值
iastore
6、從樹遍歷解釋器進化為基于棧的字節碼解釋器的前端
如果你看到樹形結構與后序遍歷,并且知道后綴記法(或者逆波蘭記法,
reverse Polish notation)的話,那敏銳的你或許已經察覺了:要解釋執行AST,可以先通過后序遍歷AST生成對應的后綴記法的操作序列,然后再解釋執行該操作序列。這樣就把樹形結構壓扁,成為了線性結構。
樹遍歷解釋器對AST的求值其實隱式依賴于調用棧:eval(Node n)的遞歸調用關系是靠調用棧來維護的。后綴表達式的求值則通常顯式依賴于一個棧,在遇到操作數時將其壓入棧中,遇到運算時將合適數量的值從棧頂彈出進行運算,再將結果壓回到棧上。這種描述看起來眼熟么?沒錯,后綴記法的求值中的核心數據結構就是前文提到過的“求值棧”(或者叫操作數棧,現在應該更好理解了)。后綴記法也就與基于棧的架構聯系了起來:后者可以很方便的執行前者。同理,零地址指令也與樹形結構聯系了起來:可以通過一個棧方便的把零地址指令序列再轉換回到樹的形式。
Java字節碼與Java源碼聯系緊密,前者可以看成后者的后綴記法。如果想在JVM上開發一種語義能直接映射到Java上的語言,那么編譯器很好寫:秘訣就是后序遍歷AST。
那么讓我們再來看看,同樣是i = a + b * c這段源碼對應的AST,生成Java字節碼的例子:

(假設a、b、c、i分別被分配到局部變量區的slot 0到slot 3)
能看出Java字節碼與源碼間的對應關系了么?
一個Java編譯器的輸入是Java源代碼,輸出是含有Java字節碼的.class文件。它里面主要包含掃描器與解析器,語義分析器(包括類型檢查器/類型推導器等),代碼生成器等幾大部分。上圖所展示的就是代碼生成器的工作。對Java編譯器來說,代碼生成就到字節碼的層次就結束了;而對native編譯器來說,這里剛到生成中間表示的部分,接下去是優化與最終的代碼生成。
如果你對
Python、
CRuby 1.9之類有所了解,會發現它們的字節碼跟Java字節碼在“基于棧”的這一特征上非常相似。其實它們都是由“編譯器+VM”構成的,概念上就像是Java編譯器與JVM融為一體一般。
從這點看,Java與Python和Ruby可以說是一條船上的。雖說內部具體實現的顯著差異使得先進的JVM比簡單的JVM快很多,而JVM又普遍比Python和Ruby快很多。
當解釋器中用于解釋執行的中間代碼是樹形時,其中能被稱為“編譯器”的部分基本上就是解析器;中間代碼是線性形式(如字節碼)時,其中能被稱為編譯器的部分就包括上述的代碼生成器部分,更接近于所謂“完整的編譯器”;如果虛擬機是基于寄存器架構的,那么編譯器里至少還得有虛擬寄存器分配器,又更接近“完整的編譯器”了。
7、基于棧與基于寄存器架構的VM的一組圖解
要是拿兩個分別實現了基于棧與基于寄存器架構、但沒有直接聯系的VM來對比,效果或許不會太好。現在恰巧有兩者有緊密聯系的例子——JVM與Dalvik VM。JVM的字節碼主要是零地址形式的,概念上說JVM是基于棧的架構。Google Android平臺上的應用程序的主要開發語言是Java,通過其中的
Dalvik VM來運行Java程序。為了能正確實現語義,Dalvik VM的許多設計都考慮到與JVM的兼容性;但它卻采用了基于寄存器的架構,其字節碼主要是二地址/三地址混合形式的,乍一看可能讓人納悶。考慮到Android有明確的目標:面向移動設備,特別是最初要對ARM提供良好的支持。ARM9有16個32位通用寄存器,Dalvik VM的架構也常用16個虛擬寄存器(一樣多……沒辦法把虛擬寄存器全部直接映射到硬件寄存器上了);這樣Dalvik VM就不用太顧慮可移植性的問題,優先考慮在ARM9上以高效的方式實現,發揮基于寄存器架構的優勢。
Dalvik VM的主要設計者
Dan Bornstein在Google I/O 2008上做過一個
關于Dalvik內部實現的演講;同一演講也在Google Developer Day 2008 China和Japan等會議上重復過。這個演講中Dan特別提到了Dalvik VM與JVM在字節碼設計上的區別,指出Dalvik VM的字節碼可以用更少指令條數、更少內存訪問次數來完成操作。(看不到YouTube的請自行想辦法)
眼見為實。要自己動手感受一下該例子,請先確保已經正確安裝JDK 6,并從
官網獲取Android SDK 1.6R1。連不上官網的也請自己想辦法。
創建Demo.java文件,內容為:
public class Demo {
public static void foo() {
int a = 1;
int b = 2;
int c = (a + b) * 5;
}
}
通過javac編譯,得到Demo.class。通過javap可以看到foo()方法的字節碼是:
0: iconst_1
1: istore_0
2: iconst_2
3: istore_1
4: iload_0
5: iload_1
6: iadd
7: iconst_5
8: imul
9: istore_2
10: return
接著用Android SDK里platforms\android-1.6\tools目錄中的dx工具將Demo.class轉換為dex格式。轉換時可以直接以文本形式dump出dex文件的內容。使用下面的命令:
dx --dex --verbose --dump-to=Demo.dex.txt --dump-method=Demo.foo --verbose-dump Demo.class
可以看到foo()方法的字節碼是:
0000: const/4 v0, #int 1 // #1
0001: const/4 v1, #int 2 // #2
0002: add-int/2addr v0, v1
0003: mul-int/lit8 v0, v0, #int 5 // #05
0005: return-void
(原本的輸出里還有些code-address、local-snapshot等,那些不是字節碼的部分,可以忽略。)
讓我們看看兩個版本在概念上是如何工作的。
JVM:

(圖中數字均以十六進制表示。其中字節碼的一列表示的是字節碼指令的實際數值,后面跟著的助記符則是其對應的文字形式。標記為紅色的值是相對上一條指令的執行狀態有所更新的值。下同)
說明:Java字節碼以1字節為單元。上面代碼中有11條指令,每條都只占1單元,共11單元==11字節。
程序計數器是用于記錄程序當前執行的位置用的。對Java程序來說,每個線程都有自己的PC。PC以字節為單位記錄當前運行位置里方法開頭的偏移量。
每個線程都有一個Java棧,用于記錄Java方法調用的“活動記錄”(activation record)。Java棧以幀(frame)為單位線程的運行狀態,每調用一個方法就會分配一個新的棧幀壓入Java棧上,每從一個方法返回則彈出并撤銷相應的棧幀。
每個棧幀包括局部變量區、求值棧(JVM規范中將其稱為“操作數棧”)和其它一些信息。局部變量區用于存儲方法的參數與局部變量,其中參數按源碼中從左到右順序保存在局部變量區開頭的幾個slot。求值棧用于保存求值的中間結果和調用別的方法的參數等。兩者都以字長(32位的字)為單位,每個slot可以保存byte、short、char、int、float、reference和returnAddress等長度小于或等于32位的類型的數據;相鄰兩項可用于保存long和double類型的數據。每個方法所需要的局部變量區與求值棧大小都能夠在編譯時確定,并且記錄在.class文件里。
在上面的例子中,Demo.foo()方法所需要的局部變量區大小為3個slot,需要的求值棧大小為2個slot。Java源碼的a、b、c分別被分配到局部變量區的slot 0、slot 1和slot 2。可以觀察到Java字節碼是如何指示JVM將數據壓入或彈出棧,以及數據是如何在棧與局部變量區之前流動的;可以看到數據移動的次數特別多。動畫里可能不太明顯,iadd和imul指令都是要從求值棧彈出兩個值運算,再把結果壓回到棧上的;光這樣一條指令就有3次概念上的數據移動了。
對了,想提醒一下:Java的局部變量區并不需要把某個局部變量固定分配在某個slot里;不僅如此,在一個方法內某個slot甚至可能保存不同類型的數據。如何分配slot是編譯器的自由。從類型安全的角度看,只要對某個slot的一次load的類型與最近一次對它的store的類型匹配,JVM的字節碼校驗器就不會抱怨。以后再找時間寫寫這方面。
Dalvik VM:

說明:Dalvik字節碼以16位為單元(或許叫“雙字節碼”更準確 =_=|||)。上面代碼中有5條指令,其中mul-int/lit8指令占2單元,其余每條都只占1單元,共6單元==12字節。
與JVM相似,在Dalvik VM中每個線程都有自己的PC和調用棧,方法調用的活動記錄以幀為單位保存在調用棧上。PC記錄的是以16位為單位的偏移量而不是以字節為單位的。
與JVM不同的是,Dalvik VM的棧幀中沒有局部變量區與求值棧,取而代之的是一組虛擬寄存器。每個方法被調用時都會得到自己的一組虛擬寄存器。常用v0-v15這16個,也有少數指令可以訪問v0-v255范圍內的256個虛擬寄存器。與JVM相同的是,每個方法所需要的虛擬寄存器個數都能夠在編譯時確定,并且記錄在.dex文件里;每個寄存器都是字長(32位),相鄰的一對寄存器可用于保存64位數據。方法的參數按源碼中從左到右的順序保存在末尾的幾個虛擬寄存器里。
與JVM版相比,可以發現Dalvik版程序的指令數明顯減少了,數據移動次數也明顯減少了,用于保存臨時結果的存儲單元也減少了。
你可能會抱怨:上面兩個版本的代碼明明不對應:JVM版到return前完好持有a、b、c三個變量的值;而Dalvik版到return-void前只持有b與c的值(分別位于v0與v1),a的值被刷掉了。
但注意到a與b的特征:它們都只在聲明時接受過一次賦值,賦值的源是常量。這樣就可以對它們應用
常量傳播,將
int c = (a + b) * 5;
替換為
int c = (1 + 2) * 5;
然后可以再對c的初始化表達式應用常量折疊,進一步替換為:
int c = 15;
把變量的每次狀態更新(包括初始賦值在內)稱為變量的一次“定義”(definition),把每次訪問變量(從變量讀取值)稱為變量的一次“使用”(use),則可以把代碼整理為“使用-定義鏈”(簡稱UD鏈,
use-define chain)。顯然,一個變量的某次定義要被使用過才有意義。上面的例子經過常量傳播與折疊后,我們可以分析得知變量a、b、c都只被定義而沒有被使用。于是它們的定義就成為了無用代碼(dead code),可以安全的被消除。
上面一段的分析用一句話描述就是:由于foo()里沒有產生外部可見的副作用,所以foo()的整個方法體都可以被優化為空。經過dx工具處理后,Dalvik版程序相對JVM版確實是稍微優化了一些,不過沒有影響程序的語義,程序的正確性是沒問題的。這是其一。
其二是Dalvik版代碼只要多分配一個虛擬寄存器就能在return-void前同時持有a、b、c三個變量的值,指令幾乎沒有變化:
0000: const/4 v0, #int 1 // #1
0001: const/4 v1, #int 2 // #2
0002: add-int v2, v0, v1
0004: mul-int/lit8 v2, v2, #int 5 // #05
0006: return-void
這樣比原先的版本多使用了一個虛擬寄存器,指令方面也多用了一個單元(add-int指令占2單元);但指令的條數沒變,仍然是5條,數據移動的次數也沒變。
題外話1:Dalvik VM是基于寄存器的,x86也是基于寄存器的,但兩者的“寄存器”卻相當不同:前者的寄存器是每個方法被調用時都有自己一組私有的,后者的寄存器則是全局的。也就是說,Dalvik VM字節碼中不用擔心保護寄存器的問題,某個方法在調用了別的方法返回過來后自己的寄存器的值肯定跟調用前一樣。而x86程序在調用函數時要考慮清楚
calling convention,調用方在調用前要不要保護某些寄存器的當前狀態,還是說被調用方會處理好這些問題,麻煩事不少。Dalvik VM這種虛擬寄存器讓人想起一些實際處理器的“寄存器窗口”,例如SPARC的
Register Windows也是保證每個函數都覺得自己有“私有的一組寄存器”,減輕了在代碼里處理寄存器保護的麻煩——扔給硬件和操作系統解決了。
IA-64也有寄存器窗口的概念。
題外話2:Dalvik的.dex文件在未壓縮狀態下的體積通常比同等內容的.jar文件在deflate壓縮后還要小。但光從字節碼看,Java字節碼幾乎總是比Dalvik的小,那.dex文件的體積是從哪里來減出來的呢?這主要得益與.dex文件對常量池的壓縮,一個.dex文件中所有類都共享常量池,使得相同的字符串、相同的數字常量等都只出現一次,自然能大大減小體積。相比之下,.jar文件中每個類都持有自己的常量池,諸如"Ljava/lang/Object;"這種常見的字符串會被重復多次。Sun自己也有進一步壓縮JAR的工具,Pack200,對應的標準是
JSR 200。它的主要應用場景是作為JAR的網絡傳輸格式,以更高的壓縮比來減少文件傳輸時間。在
官方文檔提到了Pack200所用到的壓縮技巧,
JDK 5.0 Documentation 寫道
Pack200 works most efficiently on Java class files. It uses several techniques to efficiently reduce the size of JAR files:
- It merges and sorts the constant-pool data in the class files and co-locates them in the archive.
- It removes redundant class attributes.
- It stores internal data structures.
- It use delta and variable length encoding.
- It chooses optimum coding types for secondary compression.
可見.dex文件與Pack200采用了一些相似的減小體積的方法。很可惜目前還沒有正式發布的JVM支持直接加載Pack200格式的歸檔,畢竟網絡傳輸才是Pack200最初構想的應用場景。
再次提醒注意,
上面的描述是針對概念上的JVM與Dalvik VM,而不是針對它們的具體實現。實現VM時可以采用許多優化技巧去減少性能損失,使得實際的運行方式與概念中的不完全相符,只要最終的運行結果滿足原本概念上的VM所實現的語義就行。
===========================================================================
上面“簡單”的提了些討論點,不過還沒具體到JavaScript引擎,抱歉。弄得太長了,只好在這里先拆分一次……有些東西想寫的,洗個澡又忘記了。等想起來再補充 orz
“簡單”是相對于實際應該掌握的信息量而言。上面寫的都還沒撓上癢癢,心虛。
Anyway。根據拆分的現狀,下一篇應該是討論動態語言與編譯的問題,然后再下一篇會看看解釋器的演化方法,再接著會看看JavaScript引擎的狀況(主要針對V8和Nitro,也會談談Tamarin。就不討論JScript了)。
關于推薦資料,在
“我的收藏”的virtual machine標簽里就有不少值得一讀的資料。如果只是對JavaScript引擎相關感興趣的話也可以選著讀些。我的收藏里還有v8和tamarin等標簽的,資料有的是 ^ ^
能有耐心讀到結尾的同學們,歡迎提出意見和建議,以及指出文中的錯漏 ^_^
不像抓到蟲就給美分的大師,我沒那種信心……錯漏難免,我也需要進一步學習。拜托大家了~
P.S. 畫圖真的很辛苦,加上JavaEye的帶寬也不是無限的……所以拜托不要直接鏈接這帖里的圖 <(_ _)>
有需要原始圖片的可以跟我聯系。我是畫成多幀PNG然后轉換為GIF發出來的。上面的PNG圖片都還保留有原始的圖層信息,要拿去再編輯也很方便 ^ ^
更新1:
原本在樹遍歷解釋器圖解的小節中,我用的是這幅圖:
其實上圖畫得不準確,a、b、c的右值不應該畫在節點上的;節點應該只保存了它們的左值才對,要獲取對應的右值就要查詢變量表。我修改了圖更新到正文了。原本的圖里對i的賦值看起來很奇怪,就像是遍歷過程經過了兩次i節點一般,而事實不是那樣的。