張弛
<zhangchi@china.com>
一、?????
TinyXml
的特點
TinyXml
是一個基于
DOM
模型的、非驗證的輕量級
C++
解釋器。
1.?????
SAX
和
DOM
目前
XML
的解析主要有兩大模型:
SAX
和
DOM
。
其中
SAX
是基于事件的,其基本工作流程是分析
XML
文檔,當(dāng)發(fā)現(xiàn)了一個新的元素時,產(chǎn)生一個對應(yīng)事件,并調(diào)用相應(yīng)的用戶處理函數(shù)。這種方式占用內(nèi)存少,速度快,但用戶程序相應(yīng)得會比較復(fù)雜。
而
DOM
(文檔對象模型),則是在分析時,一次性的將整個
XML
文檔進行分析,并在內(nèi)存中形成對應(yīng)的樹結(jié)構(gòu),同時,向用戶提供一系列的接口來訪問和編輯該樹結(jié)構(gòu)。這種方式占用內(nèi)存大,速度往往慢于
SAX
,但可以給用戶提供一個面向?qū)ο蟮脑L問接口,對用戶更為友好。
另據(jù)說,一些同時提供了
SAX
和
DOM
接口的庫,是在底層先實現(xiàn)
SAX
,再在
SAX
的基礎(chǔ)上實現(xiàn)
DOM
。
目前我知道的
XML
解析庫有下面幾個:
名稱
|
訪問接口
|
是否支持驗證
|
備注
|
Expat
|
SAX/Local
|
不清楚
|
Local
指它還有一套自己訪問模型
|
LibXML2
|
SAX/DOM
|
是
|
?
|
TinyXml
|
DOM
|
否
|
?
|
XML4C
|
SAX/DOM
|
是
|
和
Xerces-C
是一家,不過用了
ICU
,國際化似乎更好
|
Xerces-C
|
SAX/DOM
|
是
|
?
|
XML Booster
|
Local
|
不清楚
|
這個庫不是特別了解,好像是類似
yacc
那樣,可以生成一個特定的解析器,估計效率應(yīng)該很高(看名字也像)。
|
?
2.?????
驗證和非驗證
對于一個特定的
XML
文檔而言,其正確性分為兩個層次。首先是其格式應(yīng)該符合
XML
的基本格式要求,比如第一行要有聲明,標(biāo)簽的嵌套層次必須前后一致等等,符合這些要求的文件,就是一個合格的
XML
文件,稱作
well-formatted
。但除此之外,一個
XML
文檔因其內(nèi)容的不同還必須在語義上符合相應(yīng)的標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)由相應(yīng)的
DTD
文件或者
Schema
文件來定義,符合了這些定義要求的
XML
文件,稱作
valid
。
因此,解析器也分為兩種,一種是驗證的,即會跟據(jù)
XML
文件中的聲明,用相應(yīng)的
DTD
文件對
XML
文件進行校驗,檢查它是否滿足
DTD
文件的要求。另一種是忽略
DTD
文件,只要基本格式正確,就可以進行解析。
就我所知,驗證的解析器通常都是比較重量級的。
TinyXml
不支持驗證,但是體積很小,用在解析格式較為簡單的
XML
文件,比如配置文件時,特別的合適。
?
二、?????
TinyXml
的構(gòu)建和使用
1.?????
獲取
TinyXml
首頁在
http://www.grinninglizard.com/tinyxml/index.html
,從這里可以找到最新版本的源代碼,目前的版本是
2.3.4
。
2.?????
構(gòu)建
TinyXml
在構(gòu)建時可以選擇是否支持
STL
,選擇的話,則可以使用
std::string
,所以通常應(yīng)該打開這個選項。
在
Windows
上,
TinyXml
的源碼包里提供了
VC6
的工程文件,直接用它就可以生成兩個靜態(tài)庫(帶
STL
和不帶
STL
),非常容易。唯一需要注意的是,默認生成的庫是單線程的,如果用在多線程的項目中,需要改動一下配置,生成相應(yīng)的多線程庫。
在
Unix
平臺上,
TinyXml
的源碼包里只提供了一個
Makefile
,對于典型的
Linux
系統(tǒng),或裝了
gcc
和
gmake
的其他
Unix
,這個
Makefile
足夠用了,我在
RH9
和
RHEL4
上測試,簡單的
make
就成功了。需要注意的有以下幾點:默認的編譯是不支持
STL
的,可以通過編輯
Makefile
的
TINYXML_USE_STL := NO
那一行,把
NO
改成
YES
就可以支持
STL
了;還有默認只生成了一個測試程序,沒有生成任何庫,如果要生成靜態(tài)庫的話,可以用
ar
命令,將生成的幾個目標(biāo)文件打包就行了,如果要生成動態(tài)庫,則需要加上
-fpic
參數(shù)重新編譯。
3.?????
使用
構(gòu)建了相應(yīng)的庫之后,在使用了它們的工程中,只要在連接時把他們連上就行了。需要注意的是,如果需要
STL
支持,在編譯用到了
TinyXml
的文件時,需要定義一個宏
TIXML_USE_STL
,對
gcc
,可以使用參數(shù)
-DTIXML_USE_STL
,對
cl.exe
(
VC
),可以使用參數(shù)
/DTIXML_USE_STL
,如果嫌麻煩,可以直接定義在
tinyxml.h
文件里。
?
三、?????
TinyXml
的編程模型
1.?????
類之間的關(guān)系
TinyXml
實現(xiàn)的時
DOM
訪問模型,因此提供了一系列的類對應(yīng)
XML
文件中的各個節(jié)點。主要類間的關(guān)系如下圖所示:
TiXmlBase
:其他類的基類,是個抽象類
TiXmlNode
:表示一個節(jié)點,包含節(jié)點的一般方法,如訪問自節(jié)點、兄弟節(jié)點、編輯自身、編輯子節(jié)電
TiXmlDocument
:表示整個
XML
文檔,不對應(yīng)其中某個特定的節(jié)點。
TiXmlElement
:表示元素節(jié)點,可以包含子節(jié)點和
TiXmlAttribute
TiXmlComment
:表示注釋
TiXmlDeclaration
:表示聲明
TiXmlText
:表示文本節(jié)點
TiXmlUnknown
:表示未知節(jié)點,通常是出錯了
TiXmlAttribute
:表示一個元素的屬性
下面是一個簡單的例子:
<?xml
version="1.0" encoding="utf-8" ?>
<!-This is only a sample-->
<book>
?????? <name>TinyXml How To</name>
?????? <price unit=”RMB”>20</price>
?????? <description>Some words…</description>
</ book >
整個文檔,對應(yīng)
TiXmlDocument
book,name,price
, description
,都對應(yīng)
TiXmlElement
第一行對應(yīng)一個
TiXmlDeclaration
第二行對應(yīng)一個
TiXmlComment
“TinyXml How To”
對應(yīng)一個
TiXmlText
unit
則是
price
的一個
TiXmlAttribute
這些類與
XML
文件中的相應(yīng)元素都有很好的對應(yīng)關(guān)系,因此相信參照
TinyXml
的文檔,可以很容易的掌握各個方法的使用。
?
2.?????
需要注意的問題
各類之間的轉(zhuǎn)換
由于各個節(jié)點類都從
TiXmlNode
繼承,在使用時常常需要將
TiXmlNode
*
類型的指針轉(zhuǎn)換為其派生類的指針,在進行這種轉(zhuǎn)換時,應(yīng)該首先使用由
TiXmlNode
類提供的一系列轉(zhuǎn)換函數(shù),如
ToElement
(void)
,而不是
c++
的
dynamic_cast
?
檢查返回值
由于
TinyXml
是一個非校驗的解析器,因此當(dāng)解析一個文件時,很可能文件并不包含我們預(yù)期的某個節(jié)點,在這種情況下,
TinyXml
將返回空指針。因此,必須要對返回值進行檢查,否則將很容易出現(xiàn)內(nèi)存訪問的錯誤。
?
如何重頭建立一個
XML
文件
先建立一個
TiXmlDocument
對象,然后,載入某個模板,或者直接插入一個節(jié)點作為根節(jié)點,接著就可以像打開一個已有的
XML
文件那樣對它進行操作了。
?
四、?????
總結(jié)
TinyXml
最大的特點就是它很小,可以很方便的靜態(tài)連接到程序里。對于像配置文件、簡單的數(shù)據(jù)文件這類文件的解析,它很適合。但是由于它是非驗證的,因此需要在程序里做許多檢查工做,加重了程序編寫的負擔(dān)。因此對于復(fù)雜的
XML
文件,我覺得最好還是用驗證的解析器來處理。