手把手教你寫腳本引擎(一)——挑選語言的特性
陳梓瀚
華南理工大學(xué)軟件本科05級(jí)
vczh@163.com
http://m.shnenglu.com/vczh/
腳本引擎的作用在于增強(qiáng)程序的可配置性。從游戲到管理系統(tǒng)都需要腳本,甚至連工業(yè)級(jí)產(chǎn)品的Office、3DS Max以及AutoCAD等都添加了屬于自己的腳本語言。DHTML的出現(xiàn)讓我們可以在網(wǎng)頁代碼中嵌入腳本語言,PHP和ASP等技術(shù)的出現(xiàn)讓我們可以將一個(gè)應(yīng)用程序的界面換成網(wǎng)頁,而邏輯使用腳本語言編寫。現(xiàn)在腳本語言的種類繁多,Python的發(fā)展讓BOOST庫擁有了對Python的支持,Rails框架的出現(xiàn)壯大了Ruby的實(shí)力,LUA更是被大量應(yīng)用在游戲開發(fā)中。Windows甚至提供了wscript以便讓我們能夠調(diào)用javascript和vbscript的代碼。
既然有了這么多可供選擇的腳本引擎,為什么我們?nèi)匀灰_發(fā)自己的腳本引擎呢?首先,我們并不能保證現(xiàn)有的腳本引擎能夠滿足我們做出來的系統(tǒng)。因?yàn)槲覀兯枰哪_本可能很簡單,用現(xiàn)有的腳本引擎比較浪費(fèi)。或者我們的腳本復(fù)雜,但是功能比較“神奇”(譬如SQL)以至于沒有能夠滿足我們需要的腳本引擎。因?yàn)槟_本并不一定是通用語言,腳本僅僅是為了滿足我們增強(qiáng)系統(tǒng)的可配置性而出現(xiàn)的。其次,腳本引擎足夠復(fù)雜,可以訓(xùn)練我們的編程能力。在我們的業(yè)余時(shí)間里面開發(fā)出來的程序并不完全是為了滿足某個(gè)應(yīng)用的需要而產(chǎn)生的,有可能是我們?yōu)榱俗陨淼奶岣叨M(jìn)行的摸索。開發(fā)腳本引擎足以成為鍛煉的方法之一。
計(jì)算機(jī)語言作為一個(gè)計(jì)算的定義,在我們開發(fā)腳本引擎之前需要先進(jìn)行了解。對于目前流行的若干種語言,我們可以抽象出一組正交屬性來描述他們。
一、命令式與描述式
一門語言是命令式或者描述式取決于這門語言是用來告訴計(jì)算機(jī)怎樣做還是做什么的。舉個(gè)例子,SQL和Prolog是描述式語言,而C++、C#等則是命令式語言。我們在使用SQL的時(shí)候告訴服務(wù)器的是我們需要滿足什么條件的數(shù)據(jù)項(xiàng),而不是告訴服務(wù)器我們需要通過什么計(jì)算來獲得自己所需要的數(shù)據(jù)項(xiàng)。描述式的語言的優(yōu)點(diǎn)在于其可讀性好。C# 3.0為數(shù)據(jù)查詢加入了LINQ讓我們可以在C#中書寫類似SQL的代碼查詢數(shù)據(jù)。
另一個(gè)比較模糊的例子則是Haskell。Haskell很難區(qū)分是命令式語言還是描述式語言。因?yàn)閺男问缴蟻碚f我們告訴編譯器的是我們想做什么而不是我們想怎么做,但是Haskell給我們的工具的粒度太細(xì)以至于我們?yōu)榱烁嬖V編譯器做什么的同時(shí)仍然需要考慮一個(gè)問題是如何被解決的。
二、按值計(jì)算與惰性計(jì)算
惰性計(jì)算的語言很少出現(xiàn)以至于可能很多人都不知道“原來語言可以是這個(gè)樣子的”。惰性計(jì)算的精神是不去執(zhí)行沒用的代碼。什么是沒用的代碼呢?只要是這段代碼的值不對外界產(chǎn)生任何影響,譬如沒有往屏幕、硬盤或者是其他什么地方寫點(diǎn)什么數(shù)據(jù),就是沒有用的。當(dāng)然,至于這段代碼中間做了些什么事情那是不管的。
舉一個(gè)比較簡單的例子,假設(shè)現(xiàn)在有如下代碼:
function PrintAndReturn(Message,Result)
{
Print(Message);
return Result;
}
function DoSomething(BoolA,BoolB)
{
If(BoolA || BoolB) Print(“!”);
}
DoSomething(PrintAndReturn(“Hello”,true),PrintAndReturn(“World”,false));
DoSomething函數(shù)傳入兩個(gè)參數(shù),都是布爾類型的。如果這兩個(gè)參數(shù)其中有一個(gè)是true的話那么就往屏幕上打出一個(gè)感嘆號(hào)。PrintAndReturn函數(shù)接受兩個(gè)參數(shù),往屏幕上打出第一個(gè)參數(shù),函數(shù)返回第二個(gè)參數(shù)。
對于一門按值計(jì)算的語言,也就是我們平常見到的那種,執(zhí)行的結(jié)果是“HelloWorld!”。因?yàn)闉榱苏{(diào)用DoSomething我們需要首先獲得兩個(gè)布爾值。
對于一門惰性計(jì)算的語言,執(zhí)行的結(jié)果是“Hello!”。因?yàn)?/span>DoSomething在對BoolA || BoolB進(jìn)行求值的時(shí)候計(jì)算了BoolA,發(fā)現(xiàn)是true,于是BoolB這個(gè)參數(shù)就沒有用了,因此PrintAndReturn(“World”,false)也就不會(huì)執(zhí)行了,導(dǎo)致“World”不會(huì)顯示在屏幕上。
當(dāng)然,對于上面舉的這個(gè)例子來說,這種語言有著惰性計(jì)算的屬性并不合理。一門語言為了不具有二義性,在存在惰性計(jì)算的同時(shí)必須對自己的類型系統(tǒng)進(jìn)行改造。關(guān)于這方面的資料可以查閱Haskell語言中Monad的原理。Haskell作為一門惰性計(jì)算的語言,在不關(guān)心求值順序的同時(shí),仍然保證結(jié)果的一致性。上面這個(gè)例子,如果程序?qū)?/span>||的求值是從右操作數(shù)開始的話,那么輸出的結(jié)果就變成“HelloWorld!”了。惰性計(jì)算的好處在于可以在邏輯上表達(dá)無窮大的對象,而在實(shí)際的計(jì)算過程中并不需要將這個(gè)無窮大的對象一次性計(jì)算出來,而是需要哪里算到哪里。舉個(gè)例子:
function MakeArray(Index)
{
return [Index]++MakeArray(Index+1);
}
function Sum(Array,Count)
{
Result=0;
for i=0 to Count-1
Result+=Array[i];
return Result;
}
Print(Sum(MakeArray(1),10));
在這個(gè)例子中,[Index]代表一個(gè)只有一個(gè)元素的數(shù)組,其內(nèi)容是Index,而++操作符將兩個(gè)數(shù)組接起來。于是MakeArray(1)就產(chǎn)生了一個(gè)無窮長的數(shù)組,其內(nèi)容是[1,2,3,4,…]。Sum計(jì)算數(shù)組的前若干個(gè)數(shù)字的和。對于一門惰性計(jì)算的語言,這個(gè)例子將輸出55,因?yàn)槲覀冃枰膬H僅是前10個(gè)數(shù)字,因此MakeArray只需要遞歸10次就自動(dòng)挺下來了。而對于一門按值計(jì)算的語言來說,將發(fā)生死循環(huán)而出現(xiàn)不可停機(jī)現(xiàn)象。
三、強(qiáng)類型、弱類型與無類型
一門語言是無類型當(dāng)且僅當(dāng)一個(gè)固定的符號(hào)的類型可以在運(yùn)行時(shí)改變。譬如如下代碼:
TheVariable=1;
TheVariable=”I am a string!”;
第一行創(chuàng)建了一個(gè)int類型的TheVariable變量,而第二行則將TheVariable修改成了字符串類型。一門無類型語言的對象類型可以是數(shù)值、字符串、數(shù)組、類、閉包、函數(shù)指針等等的東西。
只要不是無類型的,那必然就是強(qiáng)類型或者弱類型的了。強(qiáng)類型與弱類型的分界線比較明顯。只要存在隱式類型轉(zhuǎn)換的語言則是弱類型的,譬如C語言能將int隱式轉(zhuǎn)換為double。不存在隱式轉(zhuǎn)換的語言也是存在的,譬如Haskell。在Haskell里面不能創(chuàng)建一個(gè)實(shí)數(shù)類型的名字但是綁定一個(gè)整數(shù)的值上去。因?yàn)檎麛?shù)跟實(shí)數(shù)的類型是不同的,而且不存在隱式轉(zhuǎn)換。
四、函數(shù)與閉包
凡是支持閉包的語言必然是支持函數(shù)的,但是并不是所有支持函數(shù)的語言都支持閉包,而且也并不是所有的語言都有函數(shù)。Windows的批處理文件所能理解的語言就是不支持函數(shù)的語言的一個(gè)例子。
至于什么是閉包呢?閉包就是可以保持函數(shù)執(zhí)行的上下文的一種強(qiáng)大的函數(shù)指針。舉個(gè)例子:
function Add(a)
{
return function(b)
{
Return a+b;
}
}
Inc=Add(1);
Inc10=Add(10);
Print(Inc(5));
Print(Inc10(5));
這個(gè)例子將輸出6和15。執(zhí)行Inc=Add(1);的時(shí)候,Add函數(shù)返回了一個(gè)新的函數(shù),這個(gè)函數(shù)接受參數(shù)b并返回參數(shù)a和b相加的結(jié)果。返回的這個(gè)函數(shù)將參數(shù)a記了下來。所以Inc和Inc10在執(zhí)行的時(shí)候,雖然執(zhí)行的是同一個(gè)函數(shù),但是這個(gè)函數(shù)所看到的a確是不同的。a的值的不同代表著Inc和Inc10執(zhí)行函數(shù)的不同。這也就是閉包是可以保持函數(shù)執(zhí)行的上下文的由來了。當(dāng)然,一門不支持閉包的語言是不能允許上面這種寫法的。
這四種屬性是區(qū)分語言特征的重要屬性。至于一門語言是否支持面向?qū)ο蟮膶懛ɑ蛘咧С衷幊袒蛘叻盒椭惖臇|西,并不是十分重要的特性,雖然我們使用起來的感覺非常不同。
那么我們?nèi)绾芜x擇我們所需要的特性呢?對于一個(gè)簡單的事務(wù)腳本來說,我們只需要非常簡單的特性諸如選擇結(jié)構(gòu)和循環(huán)結(jié)構(gòu),和簡單的計(jì)算功能。計(jì)算功能可以支持表達(dá)式也可以不支持表達(dá)式。一門不支持表達(dá)式的語言看起來就像MASM支持的那種有宏的匯編語言。就像前些日子CSDN抄得很熱的概念DSL一樣,我們在設(shè)計(jì)一門腳本語言的時(shí)候,想的不應(yīng)該是這門語言如何如何強(qiáng)大,而應(yīng)該是這門語言應(yīng)該如何更好地表達(dá)領(lǐng)域相關(guān)的信息。
下面這幅圖片顯示的是筆者在高中的時(shí)候開發(fā)的一款RPG的地圖編輯器。眾所周知,RPG是需要?jiǎng)∏榈模虼司庉嬈餍枰诘匕迳匣蛉宋锷显O(shè)置陷阱引發(fā)腳本的執(zhí)行。

RPG由于劇情復(fù)雜,需要的控制方法也就很多,因此供給RPG使用的腳本至少應(yīng)該支持選擇和循環(huán)等。而且有的時(shí)候需要使用腳本來完成某些動(dòng)畫(譬如上圖中的開門腳本),因此腳本也就需要函數(shù)了。至于為什么上面的腳本使用Pascal的語法僅僅是因?yàn)楣P者當(dāng)時(shí)Delphi用得比較多。這也是筆者第一次實(shí)現(xiàn)的一款腳本引擎。
那么,我們?nèi)绾芜x擇腳本語言的特性呢?我們要考慮一下系統(tǒng)的復(fù)雜度,因?yàn)?strong style="mso-bidi-font-weight: normal">腳本語言的特性跟我們想提供給腳本語言的庫是有很大關(guān)系的。
舉個(gè)例子,如果提供給腳本的庫經(jīng)常需要調(diào)用到腳本的函數(shù)的話(比如GUI,比如可以給腳本用的類似YACC的東西等),那么腳本最好具有閉包的特性,沒有的話至少也得有函數(shù)指針這種類型。如果提供給腳本的庫的大部分函數(shù)都可以接受很多種不同類型的對象的話,那么腳本最好是無類型的。如果庫很龐大,大到不得不用命名空間和類來提供的話,那腳本無論如何都要有類的。
對于某些專用領(lǐng)域的語言,一般都采用類似自然語言(但是具有嚴(yán)格定義)的外觀來組織腳本,最好的例子就是SQL了。如果從語言的角度看,SQL的select是一個(gè)具有很多參數(shù),而且大部分參數(shù)都具有缺省值的函數(shù),而且大部分函數(shù)都是一些lambda表達(dá)式。因?yàn)?/span>lambda表達(dá)式出現(xiàn)得太多,因此就需要簡化lambda表達(dá)式的語法了。所以最終出現(xiàn)在我們面前的語法就是select中到處都可以寫有參數(shù)的表達(dá)式,而且這些參數(shù)來自于select的表名和重命名。
如果腳本本身需要非常快的話,那么最好使用強(qiáng)類型或者弱類型。因?yàn)檫@兩種特性的語言的每一個(gè)符號(hào)都是有確定的類型的,虛擬機(jī)的開發(fā)不僅有很多方法,而且還有可能做成JIT(也就是編譯成機(jī)器碼)。在這種情況下,庫的供給就要非常注意了。因?yàn)樵诖蟛糠智闆r下腳本都是在跟庫打交道的,所以交互的部分要詳細(xì)考慮。
如果腳本僅僅是用來做一些簡單的配置工作的話,那么表達(dá)式可以全免,用命令的外觀設(shè)計(jì)語法。而且在大多數(shù)情況下連函數(shù)都可以免。這樣的話這門語言就剩下變量、分支和循環(huán)了,就跟Windows的批處理一樣。
最后一個(gè)需要提及但是大部分情況下不用管的屬性就是腳本的計(jì)算能力。這個(gè)計(jì)算能力說的不是計(jì)算的速度,而是解決的問題的范圍。這個(gè)屬性就是圖靈完備了。通俗地講,對于任何一個(gè)數(shù)學(xué)問題,如果只要C語言算得出來腳本語言都算得出來的話,那么這門腳本語言就是圖靈完備的了。當(dāng)然,因?yàn)?/span>C語言也是圖靈完備的,而且圖靈完備的計(jì)算能力在有限線程的計(jì)算機(jī)中是最高的,因此不存在一個(gè)數(shù)學(xué)問題,某種語言算得出來而C語言算不出來。那么如何判斷一門語言是不是圖靈完備的呢?
簡單的來說,有數(shù)組的語言就是圖靈完備的,有閉包的語言也是圖靈完備的。如果數(shù)組也沒有,閉包也沒有,那么有結(jié)構(gòu)(C語言的struct和Pascal的record)和有指向結(jié)構(gòu)的指針的語言也是圖靈完備的。因?yàn)殚]包的內(nèi)部結(jié)構(gòu)也是一些保留環(huán)境的struct,因此只要能表達(dá)遞歸數(shù)據(jù)結(jié)構(gòu)的語言都是圖靈完備的。
這一篇文章就先將到這里了。下一篇文章將會(huì)講述如何實(shí)現(xiàn)最簡單的命令型腳本語言,再下一篇文章開始將會(huì)有幾篇文章講述如何實(shí)現(xiàn)一門有數(shù)組和函數(shù)的弱類型腳本語言,接著會(huì)對這門語言進(jìn)行擴(kuò)充。
posted on 2008-07-07 07:45
陳梓瀚(vczh) 閱讀(21655)
評論(12) 編輯 收藏 引用 所屬分類:
腳本技術(shù)