夢想的天堂

留言簿(1)

隨筆檔案

閱讀排行榜

評論排行榜

常用鏈接

統計

隨筆 - 3
文章 - 0
評論 - 6
引用 - 0

XML字符串解析介紹

        前些天在做一個小項目，需要實現從字符串到XML文件的逆向轉換過程。該字符串由XML文件所得。由于使用環境對解析時間和內存使用量有嚴格的要求，因此必須確保解析速度和所占用內存。
      下面簡單敘述一下我的實現過程。最開始采用的方法是每次從文件字符串里面讀入一個節點的值，具體讀取過程有xml文件各個節點屬性決定。再利用一個stack對xml文件節點進行管理。大致思路是每讀入一個字符串，先判斷其類型，如果是Element或者text, comment, cdata類型則入棧，若為EndElement則出棧，這樣就可以順利建立起各個父子節點之間的關系。
     采用這樣的方法是思路比較的明確，實現起來比較的簡單，缺點是解析速度太慢了，解析一個2M左右的XML文件要10多分鐘，而且所費時間與文件的大小成幾何級別增長，根本不可能接受。在采用這種方法過程中，也出現了一個小插曲。就是在解析比較大的xml文件時，當解析的xml節點超過1500個時，就會導致內存分配錯誤，堆棧溢出，開始是百思不得其解，后來才知道是由于我在解析字符串過程中，采用了遞歸的方法，因此內存消耗很厲害，特別是我開始傳入一個const字符串時，一個小小的幾百K(以200k為例)的文件就可能導致內存一下子消耗幾百M，因為每次只讀入一個節點字符串，這樣最終大小可以達到200K+19.96k+....+0 ~=200*(200-1)k/2~ = 200M.因此導致編譯器堆棧溢出，解決方法有幾種，一是將堆棧設置大些，另外就是改遞歸為循環。我采用了后者。
     在進行字符串解析時，我大量采用了STL的字符串find,find_first_of()，substr等

函數，但是這通常只在搜索小字符串時速度較快，在長達幾M的字符串時，由于大塊的內存操作，程序運行慢如蝸牛。而且我在前面的實現方法中，每次是提取一個節點，然后再進行解析，這樣在讀取和解析過程中，會導致許多重復的步驟，嚴重影響工作效率。于是我就采用一個了for循環對讀入的一個個字節進行處理，這樣速度得到顯著的提高。但是程序在解析大字符串時還是運行很慢，我開始意識到是長字符串的問題，因此得想方法分段解析才行。于是決定每次從字符串里面提取一定的字符處理。在解析長達幾M的字符串時，我先后試驗了每次提取64bit，128bit，256bit,512bit, 1k, 2k, 4k等不同長度的字符串，發現在處理大字符串時，4K的效果最好。在解析一個8M左右的xml字符串時，速度可以達到30S，但是內存消耗有點厲害了，達100M。因此也很難滿足要求。
最后還是采用了一種比較折中的方法，就是在初次解析時，只解析根節點以及其下一層子節點，在保存過程中再分段解析，主要可以極大的減少內存消耗，8M左右的文件可以降低到20M左右內存。速度也有所提高,最終耗時3s左右。

posted on 2007-06-17 23:02 IT民工閱讀(2633) 評論(2) 編輯收藏引用

# re: XML字符串解析介紹 2007-08-27 18:17 c++ FANS

# re: XML字符串解析介紹[未登錄] 2014-08-25 14:25 12

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品