亚洲欧美日韩一区二区三区在线,欧美国产日韩二区,亚洲美女黄网

嵌入式系統(tǒng)的中文支持與國(guó)際化

    最近在做嵌入式開(kāi)發(fā)，這個(gè)嵌入式平臺(tái)上，支持標(biāo)準(zhǔn)c庫(kù)，但不支持mbcs，也不支持unicode。里面的wchar_t被直接定義為char（typedef char wchar_t;），可見(jiàn)這個(gè)wchar_t是假的，只是為了讓含有wchar_t的程序能通過(guò)編譯，并不是支持unicode，當(dāng)然也就沒(méi)有對(duì)應(yīng)的wcs函數(shù)族?，F(xiàn)在要讓這個(gè)系統(tǒng)上的程序支持中文，有下面幾種想法。
    首先要弄清支持中文的含義，先分析一下需求，這個(gè)程序?qū)ψ址牟僮髦饕侨缦铝鞒蹋瑥奈募凶x進(jìn)字符串（文件編碼可自己定義），對(duì)字符串進(jìn)行查找、截取、拼接操作，最后把完成的字符串作為參數(shù)傳到另一個(gè)庫(kù)里（暫且叫它libn吧）。需要說(shuō)明的是，libn由公司別的小組實(shí)現(xiàn)，它不關(guān)注字符集，里面不再處理（截取、拼接）字符串，只是把輸入的字符串輸出到文件或屏幕，目前已經(jīng)有一個(gè)比較穩(wěn)定的跨平臺(tái)版本。
    需求確定以后，接下來(lái)要確定中文在程序中的存儲(chǔ)編碼。對(duì)中文來(lái)說(shuō)，通常有三種編碼方案可供選擇：
   1. 用mbcs編碼存儲(chǔ)（gb2312/gbk/gb18030）。
    2. 用unicode編碼存儲(chǔ)。
    3. 用utf-8編碼存儲(chǔ)。
   這個(gè)系統(tǒng)里針對(duì)這三種編碼的字符串函數(shù)都沒(méi)有，不管采用哪種方案，字符串函數(shù)都得自己寫(xiě)，從這點(diǎn)來(lái)說(shuō)，三種方案的工作量都差不多。
   先來(lái)看看mbcs，這個(gè)方案純粹是為了中文而支持中文，如果將來(lái)要兼容其他語(yǔ)言，mbcs函數(shù)都得重寫(xiě)，而且mbcs跟unicode的轉(zhuǎn)換沒(méi)有固定的公式，必須依賴于一張大表。用mbcs沒(méi)有什么特別的好處，這個(gè)方案只能早早的就否決了。
    再來(lái)看看unicode和utf-8。一般說(shuō)來(lái)，unicode是國(guó)際化的終極解決方案，大部分c編譯器支持wchar_t數(shù)據(jù)類型，如果編譯器不支持wchar_t，可以自己使用unsigned short或unsigned int來(lái)模擬。不管什么語(yǔ)言，每個(gè)字符都被放到2字節(jié)的wchar_t類型里（linux下是4字節(jié)），通常對(duì)于新的程序，都推薦使用unicode。而utf-8是unicode的一種存儲(chǔ)方案。
    下面我們從不同方面來(lái)比較一下unicode和utf-8各自的優(yōu)勢(shì)：
    1. 內(nèi)存空間。unicode對(duì)于每個(gè)字符都是2個(gè)字節(jié)，utf-8對(duì)英文是一個(gè)字節(jié)，對(duì)漢字是2個(gè)或3個(gè)字節(jié)。對(duì)于英文來(lái)說(shuō)，utf-8占優(yōu)，但在漢字占多數(shù)的情況下，unicode占優(yōu)勢(shì)。當(dāng)然，如果字符串的數(shù)量不是很大的話，這個(gè)問(wèn)題不是很突出。這里列出來(lái)，對(duì)文件存儲(chǔ)也可以起到一個(gè)參考作用。
    2. 程序編寫(xiě)難度。unicode是定長(zhǎng)類型，而utf-8是變長(zhǎng)的，每操作一個(gè)字符的時(shí)候，都要考慮這個(gè)字符的長(zhǎng)度，毫無(wú)疑問(wèn)unicode的字符串函數(shù)編寫(xiě)起來(lái)應(yīng)該更簡(jiǎn)單。目前，這兩種字符串函數(shù)都有大量的實(shí)現(xiàn)可供參考，對(duì)于寫(xiě)程序來(lái)說(shuō)，問(wèn)題不大。
    3. 程序執(zhí)行效率。unicode定長(zhǎng)，utf-8變長(zhǎng)。對(duì)于strlen，substr之類的操作，unicode很方便，utf-8卻要從頭到尾掃描，而且需要邊掃描邊判斷字符長(zhǎng)度。因此unicode比utf-8要快很多，但如果這種操作不是很多，效率影響也不會(huì)特別明顯。
    4. 現(xiàn)有程序的數(shù)量。unicode程序我們見(jiàn)得多了，但采用utf-8的程序也不少，gtk+就是。它們都運(yùn)行得很好。
    5. 兼容性。英文的utf-8編碼跟ascii完全一樣，因此也兼容標(biāo)準(zhǔn)c庫(kù)的字符串函數(shù)，如果不需要操作字符，完全不用關(guān)心語(yǔ)言。對(duì)于unicode，標(biāo)準(zhǔn)c庫(kù)的字符串函數(shù)不能工作，字符串函數(shù)都得重寫(xiě)，常常用一個(gè)宏來(lái)控制在unicode和ascii直接切換（比如windows下的TCHAR）。
    從上面幾點(diǎn)來(lái)看，跟utf-8相比，unicode占據(jù)絕對(duì)優(yōu)勢(shì)。只有unicode的世界真美好...
    但事實(shí)上，libn因?yàn)樗⒉魂P(guān)心字符集，所以它把接口的字符串類型全部聲明成char*了，如果libn也用unicode實(shí)現(xiàn)，那就完美了，可惜，這不在我的控制范圍之內(nèi)。
    另外還有一種方案，在我的程序內(nèi)部使用unicode，在調(diào)用libn的接口處，轉(zhuǎn)換成utf-8，傳給libn，從libn返回的utf-8字符串，先轉(zhuǎn)成unicode再使用。這個(gè)方法聽(tīng)起來(lái)也不錯(cuò)，但是很多對(duì)象并不是調(diào)用接口時(shí)才生成，也不是調(diào)用完就銷(xiāo)毀，這樣會(huì)導(dǎo)致我的程序內(nèi)會(huì)長(zhǎng)期存在字符串的unicode和utf-8兩種拷貝，浪費(fèi)大量?jī)?nèi)存，對(duì)于嵌入式系統(tǒng)來(lái)說(shuō)，這很難容忍。
    最終，我決定在我的程序內(nèi)部使用utf-8編碼，作出這個(gè)決定的最主要原因是因?yàn)槲乙褂胠ibn，雖然這樣我的程序會(huì)消耗更多的內(nèi)存、需要編寫(xiě)冗長(zhǎng)難懂的字符串函數(shù)、效率也會(huì)下降，但不得不這樣。gtk+沒(méi)有使用unicode而采用utf-8，恐怕也是這樣妥協(xié)的結(jié)果吧。
    后記：utf-8函數(shù)參考了glib中的實(shí)現(xiàn)。

posted on 2009-02-17 15:44 飄雪閱讀(2200) 評(píng)論(13) 編輯收藏引用所屬分類: c/c++

Feedback

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 16:08 路人丁

你說(shuō)的unicode其實(shí)特指UCS-2。
UCS-2 和 utf-8 相比較，自然是選 utf-8

"c編譯器支持wchar_t數(shù)據(jù)類型" --- wchar_t在C/C++是寬字符，而沒(méi)有規(guī)定寬字符必須是ucs-2編碼，VC的wchar_t是用ucs2編碼，而其他編譯器大部分用ucs4編碼。回復(fù) 更多評(píng)論

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 16:16 飄雪

@路人丁
你說(shuō)的很對(duì)，我上面也注明了“l(fā)inux下是4字節(jié)”，不過(guò)沒(méi)有具體說(shuō)ucs-2或ucs-4，另外我也提到了在沒(méi)有wchar_t支持的情況下，用short或int來(lái)模擬，其實(shí)說(shuō)的也是這個(gè)問(wèn)題

因?yàn)槲业某绦蛑饕乔度胧较到y(tǒng)，所以幾乎肯定不會(huì)考慮ucs-4，這個(gè)是我沒(méi)說(shuō)清楚語(yǔ)境回復(fù) 更多評(píng)論

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 16:20 飄雪

@路人丁
另外你說(shuō)的“UCS-2 和 utf-8 相比較，自然是選 utf-8 ”
這個(gè)我不這么認(rèn)為，如果不是要使用別人的庫(kù)，我肯定不會(huì)考慮utf-8的回復(fù) 更多評(píng)論

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 17:47 路人丁

utf-8也是unicode的一種編碼，“unicode比utf-8要快很多”的說(shuō)法不夠嚴(yán)謹(jǐn)。回復(fù) 更多評(píng)論

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 17:48 路人丙

上面的一條是“路人丙”回的，路人丙道歉。回復(fù) 更多評(píng)論

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 17:51 路人丙

一直沒(méi)搞懂，Windows使用UTF-16,超過(guò)UNICODE編碼中兩個(gè)字節(jié)編碼范圍的漢字是怎么處理的。回復(fù) 更多評(píng)論

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 18:06 飄雪

@路人丁
utf-8也是unicode的一種編碼，“unicode比utf-8要快很多”的說(shuō)法不夠嚴(yán)謹(jǐn)

我本來(lái)想說(shuō)的是處理直接用unicode(ucs-2)存儲(chǔ)的字符串比處理用utf-8存儲(chǔ)的字符串快得多，表達(dá)不夠清楚回復(fù) 更多評(píng)論

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 20:49 路人戊

好奇那個(gè)libn是什么，為何能夠不依賴編碼。畢竟mbcs和utf8結(jié)構(gòu)上差別還是挺大的。如果只是寫(xiě)成char*來(lái)拿raw data的話，直接把unsigned short*轉(zhuǎn)成char*不行么…… 回復(fù) 更多評(píng)論

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-18 05:52 路人乙

@路人丙
還要再查表，對(duì)于某些超出unicode編碼范圍的字符，內(nèi)存里的其實(shí)是外表的表id和表內(nèi)索引，去那個(gè)外表再取字。回復(fù) 更多評(píng)論

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-18 11:06 飄雪

好奇那個(gè)libn是什么，為何能夠不依賴編碼。畢竟mbcs和utf8結(jié)構(gòu)上差別還是挺大的。如果只是寫(xiě)成char*來(lái)拿raw data的話，直接把unsigned short*轉(zhuǎn)成char*不行么……

libn對(duì)于字符串的處理很簡(jiǎn)單，不做substr之類的操作，實(shí)際上里面用得最多的可能是strcmp，只比較字符串，這樣的話utf-8能正常工作，unsigned short就不能工作了回復(fù) 更多評(píng)論

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-23 17:21 Agaric

@路人丙
UTF16不一定是"雙字節(jié)"。

代碼點(diǎn)存在于“代碼空間”中。代碼空間由許多標(biāo)量值組成，這些值被劃分在兩個(gè)平面中：

基本多語(yǔ)種平面（64k 大小）。
在 Unicode 中，此下平面中的值的十六進(jìn)制表示位于 U+0000 到 U+FFFF 的范圍中。

輔助多語(yǔ)種平面（16 個(gè) 64k 大小的附加節(jié)）。
在 Unicode 中，此上平面中的值的十六進(jìn)制表示位于 U+10000 到 U+10FFFF 的范圍中。
回復(fù) 更多評(píng)論

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-03-05 12:04 飄雪

@路人丙
一直沒(méi)搞懂，Windows使用UTF-16,超過(guò)UNICODE編碼中兩個(gè)字節(jié)編碼范圍的漢字是怎么處理的。

可參看 http://www.ietf.org/rfc/rfc2781.txt,
rfc2279: UTF-8, a transformation format of ISO 10646
回復(fù) 更多評(píng)論

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-03-05 12:04 飄雪

@路人丙
一直沒(méi)搞懂，Windows使用UTF-16,超過(guò)UNICODE編碼中兩個(gè)字節(jié)編碼范圍的漢字是怎么處理的。

可參看 http://www.ietf.org/rfc/rfc2781.txt,
rfc2781: UTF-16, an encoding of ISO 10646

回復(fù) 更多評(píng)論

刷新評(píng)論列表

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問(wèn) Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

飄雪

常用鏈接

留言簿(3)

隨筆分類(1)

隨筆檔案(31)

搜索

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

Feedback