青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

飄雪

C++博客 首頁(yè) 新隨筆 聯(lián)系 聚合 管理
  31 Posts :: 0 Stories :: 60 Comments :: 0 Trackbacks
    最近在做嵌入式開(kāi)發(fā),這個(gè)嵌入式平臺(tái)上,支持標(biāo)準(zhǔn)c庫(kù),但不支持mbcs,也不支持unicode。里面的wchar_t被直接定義為char(typedef char wchar_t;),可見(jiàn)這個(gè)wchar_t是假的,只是為了讓含有wchar_t的程序能通過(guò)編譯,并不是支持unicode,當(dāng)然也就沒(méi)有對(duì)應(yīng)的wcs函數(shù)族。現(xiàn)在要讓這個(gè)系統(tǒng)上的程序支持中文,有下面幾種想法。
    首先要弄清支持中文的含義,先分析一下需求,這個(gè)程序?qū)ψ址牟僮髦饕侨缦铝鞒蹋瑥奈募凶x進(jìn)字符串(文件編碼可自己定義),對(duì)字符串進(jìn)行查找、截取、拼接操作,最后把完成的字符串作為參數(shù)傳到另一個(gè)庫(kù)里(暫且叫它libn吧)。需要說(shuō)明的是,libn由公司別的小組實(shí)現(xiàn),它不關(guān)注字符集,里面不再處理(截取、拼接)字符串,只是把輸入的字符串輸出到文件或屏幕,目前已經(jīng)有一個(gè)比較穩(wěn)定的跨平臺(tái)版本。
    需求確定以后,接下來(lái)要確定中文在程序中的存儲(chǔ)編碼。對(duì)中文來(lái)說(shuō),通常有三種編碼方案可供選擇:
    1. 用mbcs編碼存儲(chǔ)(gb2312/gbk/gb18030)。
    2. 用unicode編碼存儲(chǔ)。
    3. 用utf-8編碼存儲(chǔ)。
    這個(gè)系統(tǒng)里針對(duì)這三種編碼的字符串函數(shù)都沒(méi)有,不管采用哪種方案,字符串函數(shù)都得自己寫(xiě),從這點(diǎn)來(lái)說(shuō),三種方案的工作量都差不多。
    先來(lái)看看mbcs,這個(gè)方案純粹是為了中文而支持中文,如果將來(lái)要兼容其他語(yǔ)言,mbcs函數(shù)都得重寫(xiě),而且mbcs跟unicode的轉(zhuǎn)換沒(méi)有固定的公式,必須依賴(lài)于一張大表。用mbcs沒(méi)有什么特別的好處,這個(gè)方案只能早早的就否決了。
    再來(lái)看看unicode和utf-8。一般說(shuō)來(lái),unicode是國(guó)際化的終極解決方案,大部分c編譯器支持wchar_t數(shù)據(jù)類(lèi)型,如果編譯器不支持wchar_t,可以自己使用unsigned short或unsigned int來(lái)模擬。不管什么語(yǔ)言,每個(gè)字符都被放到2字節(jié)的wchar_t類(lèi)型里(linux下是4字節(jié)),通常對(duì)于新的程序,都推薦使用unicode。而utf-8是unicode的一種存儲(chǔ)方案。
    下面我們從不同方面來(lái)比較一下unicode和utf-8各自的優(yōu)勢(shì):
    1. 內(nèi)存空間。unicode對(duì)于每個(gè)字符都是2個(gè)字節(jié),utf-8對(duì)英文是一個(gè)字節(jié),對(duì)漢字是2個(gè)或3個(gè)字節(jié)。對(duì)于英文來(lái)說(shuō),utf-8占優(yōu),但在漢字占多數(shù)的情況下,unicode占優(yōu)勢(shì)。當(dāng)然,如果字符串的數(shù)量不是很大的話(huà),這個(gè)問(wèn)題不是很突出。這里列出來(lái),對(duì)文件存儲(chǔ)也可以起到一個(gè)參考作用。
    2. 程序編寫(xiě)難度。unicode是定長(zhǎng)類(lèi)型,而utf-8是變長(zhǎng)的,每操作一個(gè)字符的時(shí)候,都要考慮這個(gè)字符的長(zhǎng)度,毫無(wú)疑問(wèn)unicode的字符串函數(shù)編寫(xiě)起來(lái)應(yīng)該更簡(jiǎn)單。目前,這兩種字符串函數(shù)都有大量的實(shí)現(xiàn)可供參考,對(duì)于寫(xiě)程序來(lái)說(shuō),問(wèn)題不大。
    3. 程序執(zhí)行效率。unicode定長(zhǎng),utf-8變長(zhǎng)。對(duì)于strlen,substr之類(lèi)的操作,unicode很方便,utf-8卻要從頭到尾掃描,而且需要邊掃描邊判斷字符長(zhǎng)度。因此unicode比utf-8要快很多,但如果這種操作不是很多,效率影響也不會(huì)特別明顯。
    4. 現(xiàn)有程序的數(shù)量。unicode程序我們見(jiàn)得多了,但采用utf-8的程序也不少,gtk+就是。它們都運(yùn)行得很好。
    5. 兼容性。英文的utf-8編碼跟ascii完全一樣,因此也兼容標(biāo)準(zhǔn)c庫(kù)的字符串函數(shù),如果不需要操作字符,完全不用關(guān)心語(yǔ)言。對(duì)于unicode,標(biāo)準(zhǔn)c庫(kù)的字符串函數(shù)不能工作,字符串函數(shù)都得重寫(xiě),常常用一個(gè)宏來(lái)控制在unicode和ascii直接切換(比如windows下的TCHAR)。
    從上面幾點(diǎn)來(lái)看,跟utf-8相比,unicode占據(jù)絕對(duì)優(yōu)勢(shì)。只有unicode的世界真美好...
    但事實(shí)上,libn因?yàn)樗⒉魂P(guān)心字符集,所以它把接口的字符串類(lèi)型全部聲明成char*了,如果libn也用unicode實(shí)現(xiàn),那就完美了,可惜,這不在我的控制范圍之內(nèi)。
    另外還有一種方案,在我的程序內(nèi)部使用unicode,在調(diào)用libn的接口處,轉(zhuǎn)換成utf-8,傳給libn,從libn返回的utf-8字符串,先轉(zhuǎn)成unicode再使用。這個(gè)方法聽(tīng)起來(lái)也不錯(cuò),但是很多對(duì)象并不是調(diào)用接口時(shí)才生成,也不是調(diào)用完就銷(xiāo)毀,這樣會(huì)導(dǎo)致我的程序內(nèi)會(huì)長(zhǎng)期存在字符串的unicode和utf-8兩種拷貝,浪費(fèi)大量?jī)?nèi)存,對(duì)于嵌入式系統(tǒng)來(lái)說(shuō),這很難容忍。
    最終,我決定在我的程序內(nèi)部使用utf-8編碼,作出這個(gè)決定的最主要原因是因?yàn)槲乙褂胠ibn,雖然這樣我的程序會(huì)消耗更多的內(nèi)存、需要編寫(xiě)冗長(zhǎng)難懂的字符串函數(shù)、效率也會(huì)下降,但不得不這樣。gtk+沒(méi)有使用unicode而采用utf-8,恐怕也是這樣妥協(xié)的結(jié)果吧。
    后記:utf-8函數(shù)參考了glib中的實(shí)現(xiàn)。



posted on 2009-02-17 15:44 飄雪 閱讀(2204) 評(píng)論(13)  編輯 收藏 引用 所屬分類(lèi): c/c++

Feedback

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 16:08 路人丁
你說(shuō)的unicode其實(shí)特指UCS-2。
UCS-2 和 utf-8 相比較,自然是選 utf-8

"c編譯器支持wchar_t數(shù)據(jù)類(lèi)型" --- wchar_t在C/C++是寬字符,而沒(méi)有規(guī)定寬字符必須是ucs-2編碼,VC的wchar_t是用ucs2編碼,而其他編譯器大部分用ucs4編碼。  回復(fù)  更多評(píng)論
  

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 16:16 飄雪
@路人丁
你說(shuō)的很對(duì),我上面也注明了“l(fā)inux下是4字節(jié)”,不過(guò)沒(méi)有具體說(shuō)ucs-2或ucs-4,另外我也提到了在沒(méi)有wchar_t支持的情況下,用short或int來(lái)模擬,其實(shí)說(shuō)的也是這個(gè)問(wèn)題

因?yàn)槲业某绦蛑饕乔度胧较到y(tǒng),所以幾乎肯定不會(huì)考慮ucs-4,這個(gè)是我沒(méi)說(shuō)清楚語(yǔ)境  回復(fù)  更多評(píng)論
  

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 16:20 飄雪
@路人丁
另外你說(shuō)的“UCS-2 和 utf-8 相比較,自然是選 utf-8 ”
這個(gè)我不這么認(rèn)為,如果不是要使用別人的庫(kù),我肯定不會(huì)考慮utf-8的  回復(fù)  更多評(píng)論
  

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 17:47 路人丁
utf-8也是unicode的一種編碼,“unicode比utf-8要快很多”的說(shuō)法不夠嚴(yán)謹(jǐn)。  回復(fù)  更多評(píng)論
  

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 17:48 路人丙
上面的一條是“路人丙”回的,路人丙道歉。  回復(fù)  更多評(píng)論
  

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 17:51 路人丙
一直沒(méi)搞懂,Windows使用UTF-16,超過(guò)UNICODE編碼中兩個(gè)字節(jié)編碼范圍的漢字是怎么處理的。  回復(fù)  更多評(píng)論
  

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 18:06 飄雪
@路人丁
utf-8也是unicode的一種編碼,“unicode比utf-8要快很多”的說(shuō)法不夠嚴(yán)謹(jǐn)

我本來(lái)想說(shuō)的是處理直接用unicode(ucs-2)存儲(chǔ)的字符串比處理用utf-8存儲(chǔ)的字符串快得多,表達(dá)不夠清楚  回復(fù)  更多評(píng)論
  

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-17 20:49 路人戊
好奇那個(gè)libn是什么,為何能夠不依賴(lài)編碼。畢竟mbcs和utf8結(jié)構(gòu)上差別還是挺大的。如果只是寫(xiě)成char*來(lái)拿raw data的話(huà),直接把unsigned short*轉(zhuǎn)成char*不行么……  回復(fù)  更多評(píng)論
  

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-18 05:52 路人乙
@路人丙
還要再查表,對(duì)于某些超出unicode編碼范圍的字符,內(nèi)存里的其實(shí)是外表的表id和表內(nèi)索引,去那個(gè)外表再取字。  回復(fù)  更多評(píng)論
  

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-18 11:06 飄雪
好奇那個(gè)libn是什么,為何能夠不依賴(lài)編碼。畢竟mbcs和utf8結(jié)構(gòu)上差別還是挺大的。如果只是寫(xiě)成char*來(lái)拿raw data的話(huà),直接把unsigned short*轉(zhuǎn)成char*不行么……


libn對(duì)于字符串的處理很簡(jiǎn)單,不做substr之類(lèi)的操作,實(shí)際上里面用得最多的可能是strcmp,只比較字符串,這樣的話(huà)utf-8能正常工作,unsigned short就不能工作了  回復(fù)  更多評(píng)論
  

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-02-23 17:21 Agaric
@路人丙
UTF16不一定是"雙字節(jié)"。

代碼點(diǎn)存在于“代碼空間”中。代碼空間由許多標(biāo)量值組成,這些值被劃分在兩個(gè)平面中:

基本多語(yǔ)種平面(64k 大小)。
在 Unicode 中,此下平面中的值的十六進(jìn)制表示位于 U+0000 到 U+FFFF 的范圍中。

輔助多語(yǔ)種平面(16 個(gè) 64k 大小的附加節(jié))。
在 Unicode 中,此上平面中的值的十六進(jìn)制表示位于 U+10000 到 U+10FFFF 的范圍中。
  回復(fù)  更多評(píng)論
  

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-03-05 12:04 飄雪
@路人丙
一直沒(méi)搞懂,Windows使用UTF-16,超過(guò)UNICODE編碼中兩個(gè)字節(jié)編碼范圍的漢字是怎么處理的。

可參看 http://www.ietf.org/rfc/rfc2781.txt,
rfc2279: UTF-8, a transformation format of ISO 10646
  回復(fù)  更多評(píng)論
  

# re: 嵌入式系統(tǒng)的中文支持與國(guó)際化 2009-03-05 12:04 飄雪
@路人丙
一直沒(méi)搞懂,Windows使用UTF-16,超過(guò)UNICODE編碼中兩個(gè)字節(jié)編碼范圍的漢字是怎么處理的。

可參看 http://www.ietf.org/rfc/rfc2781.txt,
rfc2781: UTF-16, an encoding of ISO 10646

  回復(fù)  更多評(píng)論
  


只有注冊(cè)用戶(hù)登錄后才能發(fā)表評(píng)論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            一本色道久久综合狠狠躁篇怎么玩 | 国产精品香蕉在线观看| 亚洲电影欧美电影有声小说| 久久爱www.| 欧美亚洲视频在线观看| 国产色产综合产在线视频| 亚洲欧美在线另类| 小嫩嫩精品导航| 国产在线观看精品一区二区三区 | 国产亚洲一区在线播放| 久久久久久久久一区二区| 欧美在线免费视屏| 亚洲高清不卡av| 亚洲国产小视频在线观看| 欧美日韩国产一区精品一区| 亚洲一区二区四区| 欧美一区二区三区精品| 亚洲国产精品一区二区尤物区| 欧美国产乱视频| 欧美日韩精品一区二区三区四区| 亚洲专区在线| 久久久中精品2020中文| 亚洲黄色免费网站| 一区二区三区蜜桃网| 国产一区免费视频| 亚洲精品中文字幕在线| 国产精品一区二区视频| 老司机精品视频网站| 欧美日韩国产亚洲一区 | 国产资源精品在线观看| 欧美黄色小视频| 国产精品成人在线观看| 麻豆freexxxx性91精品| 欧美日韩国产经典色站一区二区三区| 欧美在线视频免费播放| 欧美电影在线| 欧美中文在线观看| 欧美日韩亚洲一区二区三区在线| 欧美在线网址| 欧美激情日韩| 老司机免费视频久久| 国产精品美女一区二区| 欧美激情精品久久久久久蜜臀| 欧美系列亚洲系列| 亚洲国产精品悠悠久久琪琪| 国产亚洲欧美另类一区二区三区| 日韩视频欧美视频| 精品福利免费观看| 亚洲午夜激情网页| 国产精品99久久久久久久女警 | 老司机午夜精品视频在线观看| 亚洲午夜久久久久久尤物| 国产亚洲午夜| 日韩视频免费观看高清在线视频| 亚洲国产成人精品久久久国产成人一区| 中国成人亚色综合网站| 亚洲欧洲日本国产| 美国成人直播| 欧美成人激情视频免费观看| 国产伦理一区| 亚洲免费在线看| 亚洲综合电影| 欧美午夜视频| 99热在线精品观看| 一区二区三区四区在线| 欧美激情精品久久久六区热门| 奶水喷射视频一区| 悠悠资源网亚洲青| 鲁大师影院一区二区三区| 久久亚洲一区二区| 在线观看三级视频欧美| 久久免费一区| 亚洲第一级黄色片| 亚洲欧洲日产国产网站| 欧美电影资源| 亚洲欧洲一区| 亚洲午夜电影网| 欧美午夜宅男影院在线观看| 在线视频一区观看| 午夜视频一区二区| 国产亚洲视频在线| 久久综合给合久久狠狠狠97色69| 免费人成精品欧美精品| 亚洲日本va午夜在线影院| 欧美精品自拍偷拍动漫精品| 日韩天天综合| 欧美一级淫片aaaaaaa视频| 国产精品福利久久久| 亚洲伊人网站| 裸体女人亚洲精品一区| 日韩视频一区二区三区| 欧美亚洲成人网| 欧美一级二级三级蜜桃| 美女网站在线免费欧美精品| 亚洲精品日韩综合观看成人91| 欧美日韩情趣电影| 亚洲欧美日韩国产综合在线| 久久一区二区三区超碰国产精品| 亚洲激情女人| 国产精品电影网站| 久久精品国产v日韩v亚洲| 欧美大片18| 亚洲欧美国产高清| 精品不卡一区二区三区| 欧美片在线播放| 亚洲欧美韩国| 亚洲区第一页| 久久久久国内| 这里只有精品丝袜| 狠狠色综合网| 欧美日韩在线直播| 久久久噜噜噜久久人人看| 亚洲精品一区二区在线观看| 欧美影片第一页| 99re在线精品| 激情综合色丁香一区二区| 欧美日韩亚洲一区二区三区在线| 久久狠狠婷婷| 亚洲视频一二三| 亚洲国产二区| 久久永久免费| 欧美中文字幕视频| 亚洲一区国产| 亚洲毛片av| 亚洲大胆在线| 国内伊人久久久久久网站视频 | 麻豆av福利av久久av| 亚洲一级黄色| 亚洲老板91色精品久久| 欧美成人高清视频| 欧美在线|欧美| 亚洲性图久久| 日韩视频永久免费| 亚洲国产日韩综合一区| 极品裸体白嫩激情啪啪国产精品| 国产精品一区二区男女羞羞无遮挡| 欧美区高清在线| 欧美电影电视剧在线观看| 久久精品午夜| 久久精品综合| 欧美在线综合| 欧美一区激情视频在线观看| 亚洲视频一二三| 亚洲伊人伊色伊影伊综合网| 亚洲精品精选| 亚洲精品一区二区三区av| 亚洲国产日本| 亚洲免费观看视频| 亚洲巨乳在线| 99视频一区二区| 中文成人激情娱乐网| 一区二区三区国产精品| 亚洲视频在线观看视频| 一区二区日本视频| 亚洲永久在线| 欧美一区二区三区成人| 久久久综合香蕉尹人综合网| 久久久久女教师免费一区| 久久精品综合| 欧美电影在线观看| 欧美日韩一区不卡| 国产精品美女主播| 国产一区二区成人| 亚洲电影免费在线观看| 亚洲精品一品区二品区三品区| 夜夜精品视频| 久久不射网站| 欧美激情bt| 日韩视频一区二区在线观看 | 欧美精品v日韩精品v韩国精品v| 欧美黑人一区二区三区| 欧美性一区二区| 国产欧美在线视频| 狠狠操狠狠色综合网| 亚洲精品在线免费| 亚洲在线一区二区| 久久综合精品国产一区二区三区| 欧美不卡在线视频| 一本色道久久综合狠狠躁篇的优点 | 亚洲欧美视频一区| 久久综合伊人77777麻豆| 欧美人交a欧美精品| 国产精品美女主播在线观看纯欲| 樱桃视频在线观看一区| 一区二区三区|亚洲午夜| 久久精品青青大伊人av| 亚洲欧洲精品一区二区三区不卡 | 好看不卡的中文字幕| 99re亚洲国产精品| 久久国产视频网站| 亚洲国产99精品国自产| 亚洲一区在线播放| 欧美大片在线观看一区二区| 国产精品一区二区在线观看| 亚洲国产mv| 欧美在线播放高清精品| 亚洲啪啪91| 久久乐国产精品| 国产欧美在线看| 亚洲国产视频直播|