再別流年的技術實驗室
Game Design Using C++ and SDL

隨筆 - 96 文章 - 255 trackbacks - 0

2010年11月

>

日

一

二

三

四

五

六

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

E-mail：zbln426@163.com QQ：85132383 長期尋找對戰略游戲感興趣的合作伙伴。

常用鏈接

留言簿(21)

隨筆分類

隨筆檔案

SDL相關網站

Lazy Foo' Productions
提供了豐富和基礎的SDL入門教程
SDL官方主頁
更新消息，相關下載和學習資料
SDL擴展庫
SDL項目擴展庫下載

我的個人網頁

SDL中文論壇
歡迎大家來論壇討論問題
UVi 開源項目
“最終的勝利”及其引擎，UVi小游戲下載。
再別流年（我的主博）
我更新最勤的博客

我的小游戲

BeatMole
打地鼠
LoveTest
愛情小測試

資源下載

Focus on SDL
SDL官方推薦教程（英）
徹底解密C++寬字符（pdf）
徹底解密C++寬字符系列合集，包括介紹libiconv和gettext

搜索

積分與排名

積分 - 495350
排名 - 39

閱讀排行榜

評論排行榜

徹底解密C++寬字符：6、國際化策略（完）

<本文PDF文檔下載>

硬編碼的硬傷

我們現在知道，C/C++的寬窄轉換是依賴系統的locale的，并且在運行時完成。考慮這樣一種情況，我們在簡體中文Windows下編譯如下語句：
const char* s = "中文abc";
根據我們之前的討論，編譯器將按照Windows Codepage936（GB2312）對這個字符串進行編碼。如果我們在程序中運行寬窄轉換函數，將s轉換為寬字符串ws，如果這個程序運行在簡體中文環境下是沒問題的，將執行從GB2312到UCS-2BE的轉換；但是，如果在其他語言環境下，比如是繁體中文BIG5，程序將根據系統的locale執行從BIG5到UCS-2BE的轉換，這顯然就出現了錯誤。

補救

有沒有補救這個問題的辦法呢？一個解決方案就是執行不依賴locale的寬窄轉換。實際上，這就已經不是寬窄轉換之間的問題了，而是編碼之間轉換的問題了。我們可以用GNU的libiconv實現任意編碼間的轉換，對于以上的具體情況，指明是從GB2312到UCS-2BE就不會出錯。（請參考本人前面的章節：win32下的libiconv），但這顯然是一個笨拙的策略：我們在簡體中文Windows下必須使用GB2312到UCS-2BE版本的寬窄轉換函數；到了BIG5環境下，就必須重新寫從BIG5到UCS-2BE的寬窄轉換函數。

Windows的策略

Windows的策略是淘汰了窄字符串，干脆只用寬字符串。所有的硬編碼全部加上特定宏，比如TEXT()，如果程序是所謂Unicode編譯，在編譯時就翻譯為UCS2-BE——Windows自稱為Unicode編程，其本質是使用了UCS-2BE的16位寬字符串。

Linux的策略

Linux下根本就不存在這個問題！因為各種語言的Linux都使用UTF-8的編碼，所以，無論系統locale如何變化，窄到寬轉換的規則一直是UTF-8到UTF32-BE 。

跨平臺策略

因為在16位的范圍內，UTF32-BE的前16位為0，后16位與UCS2-BE是一樣的，所以，即使wchar_t的sizeof()不一樣，在一般情況下，跨平臺使用寬字符（串）也應該是兼容的。但是依然存在潛在的問題，就是那些4字節的UTF32編碼。

gettext策略

以上都是將ASCII及以外的編碼硬編碼在程序中的辦法。GNU的gettext提供了另外一種選擇：在程序中只硬編碼ASCII，多語言支持由gettext函數庫在運行時加載。（對gettext的介紹請參考本人前面的章節：Win32下的GetText）。gettext的多語言翻譯文件不在程序中，而是單獨的提出來放在特定的位置。gettext明確的知道這些翻譯文件的編碼，所以可以準確的告訴給系統翻譯的正確信息，而系統將這些信息以當前的系統locale編碼成窄字符串反饋給程序。例如，在簡體中文Windows中，gettext的po文件也可以以UTF-8儲存，gettext將po文件翻譯成mo文件，確保mo文件在任何系統和語言環境下都能夠正確翻譯。在運行是傳給win32程序的窄串符合當前locale，是GB2312。gettext讓國際化的翻譯更加的方便，缺點是目前我沒找到支持寬字符串的版本（據說是有ugettext()支持寬字符串），所以要使用gettext只能使用窄字符串。但是gettext可以轉換到寬字符串，而且不會出現寬窄轉換的問題，因為gettext是運行時根據locale翻譯的。例如：
const char* s = gettext("Chinese a b c");
其中"Chinese a b c"在po中的翻譯是"中文abc"
使用依賴locale的運行時寬窄轉換函數：
const std::wstring wstr = s2ws(s);
運行時調用該po文件對應的mo文件，在簡體中文環境下就以GB2312傳給程序，在繁體中文中就以BIG5傳給程序，這樣s2ws()總能夠正常換算編碼。

更多

在本文的最后，我想回到C++的stream問題上。用fstream轉換如此的簡單，sstream卻不支持。改造一個支持codecvt的string stream需要改造basic_stringbuf。basic_stringbuf和basic_filebuf都派生自basic_streambuf，所不同的是basic_filebuf在構造和open()的時候調用了codecvt，只需要在basic_stringbuf中添加這個功能就可以了。說起來容易，實際上是需要重新改造一個STL模板，盡管這些模板源代碼都是在標準庫頭文件中現成的，但是我還是水平有限，沒有去深究了。另外一個思路是構建一個基于內存映射的虛擬文件，這個框架在boost的iostreams庫中，有興趣的朋友可以深入的研究。
（完）

posted on 2010-06-26 19:55 lf426 閱讀(3623) 評論(4) 編輯收藏引用所屬分類: 語言基礎、數據結構與算法

FeedBack:

# re: 徹底解密C++寬字符：6、國際化策略（完） 2010-07-29 14:15 YU

樓主并沒有給出一個完整的解決方案，C++流的本地策略思想是先進的，只是對于現在的狀況來說，有點難用~

在codeproject上有位老兄搞了標準C++UTF-8與各編碼方式的轉換，另外有本C++local的書值得一看~Bjarne的書附錄也有將C++本地化的附錄~

再次，感謝博主回復更多評論

# re: 徹底解密C++寬字符：6、國際化策略（完） 2010-11-01 09:24 tt

博主請檢查下自己上傳的文件.下載下來是個exe文件.江民說是木馬程序. 回復更多評論

# re: 徹底解密C++寬字符：6、國際化策略（完）[未登錄] 2010-11-01 15:06 lf426

確實是，不知道是那個網站被黑了還是自己就想這么搞，算了，瞎了我的氪金狗眼，相信國內網站，以后我東西還是直接往sf上放吧。回復更多評論

# re: 徹底解密C++寬字符：6、國際化策略（完） 2015-07-26 13:33 ligand

如何把一個簡體漢字的字符串轉換為繁體字符串？只用C++標準提供的措施，在程序中使用兩個locale，名字分別是“gbk”與“big5”（都是操作系統給提供的）。然后我們就可以用各自的codecvt，以寬字符為中介，實現：簡體字符串-->寬字符串-->繁體字符串。這其實才是C++的locale與C語言locale的本質區別所在。回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。


相關文章: 徹底解密C++寬字符：6、國際化策略（完）徹底解密C++寬字符：5、利用fstream轉換徹底解密C++寬字符：4、利用codecvt和use_facet轉換徹底解密C++寬字符：3、利用C運行時庫函數轉換徹底解密C++寬字符：2、Unicode和UTF 徹底解密C++寬字符：1、從char到wchar_t 迭代器（iterator）“擦”（erase）出的錯誤用對象的成員函數引出線程，還是在線程中創建對象？在多線程中拋出的異常出錯？函數指針與成員函數指針

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品