青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

飄雪

C++博客 首頁 新隨筆 聯系 聚合 管理
  31 Posts :: 0 Stories :: 60 Comments :: 0 Trackbacks
    最近在做嵌入式開發,這個嵌入式平臺上,支持標準c庫,但不支持mbcs,也不支持unicode。里面的wchar_t被直接定義為char(typedef char wchar_t;),可見這個wchar_t是假的,只是為了讓含有wchar_t的程序能通過編譯,并不是支持unicode,當然也就沒有對應的wcs函數族。現在要讓這個系統上的程序支持中文,有下面幾種想法。
    首先要弄清支持中文的含義,先分析一下需求,這個程序對字符串的操作主要是如下流程,從文件中讀進字符串(文件編碼可自己定義),對字符串進行查找、截取、拼接操作,最后把完成的字符串作為參數傳到另一個庫里(暫且叫它libn吧)。需要說明的是,libn由公司別的小組實現,它不關注字符集,里面不再處理(截取、拼接)字符串,只是把輸入的字符串輸出到文件或屏幕,目前已經有一個比較穩定的跨平臺版本。
    需求確定以后,接下來要確定中文在程序中的存儲編碼。對中文來說,通常有三種編碼方案可供選擇:
    1. 用mbcs編碼存儲(gb2312/gbk/gb18030)。
    2. 用unicode編碼存儲。
    3. 用utf-8編碼存儲。
    這個系統里針對這三種編碼的字符串函數都沒有,不管采用哪種方案,字符串函數都得自己寫,從這點來說,三種方案的工作量都差不多。
    先來看看mbcs,這個方案純粹是為了中文而支持中文,如果將來要兼容其他語言,mbcs函數都得重寫,而且mbcs跟unicode的轉換沒有固定的公式,必須依賴于一張大表。用mbcs沒有什么特別的好處,這個方案只能早早的就否決了。
    再來看看unicode和utf-8。一般說來,unicode是國際化的終極解決方案,大部分c編譯器支持wchar_t數據類型,如果編譯器不支持wchar_t,可以自己使用unsigned short或unsigned int來模擬。不管什么語言,每個字符都被放到2字節的wchar_t類型里(linux下是4字節),通常對于新的程序,都推薦使用unicode。而utf-8是unicode的一種存儲方案。
    下面我們從不同方面來比較一下unicode和utf-8各自的優勢:
    1. 內存空間。unicode對于每個字符都是2個字節,utf-8對英文是一個字節,對漢字是2個或3個字節。對于英文來說,utf-8占優,但在漢字占多數的情況下,unicode占優勢。當然,如果字符串的數量不是很大的話,這個問題不是很突出。這里列出來,對文件存儲也可以起到一個參考作用。
    2. 程序編寫難度。unicode是定長類型,而utf-8是變長的,每操作一個字符的時候,都要考慮這個字符的長度,毫無疑問unicode的字符串函數編寫起來應該更簡單。目前,這兩種字符串函數都有大量的實現可供參考,對于寫程序來說,問題不大。
    3. 程序執行效率。unicode定長,utf-8變長。對于strlen,substr之類的操作,unicode很方便,utf-8卻要從頭到尾掃描,而且需要邊掃描邊判斷字符長度。因此unicode比utf-8要快很多,但如果這種操作不是很多,效率影響也不會特別明顯。
    4. 現有程序的數量。unicode程序我們見得多了,但采用utf-8的程序也不少,gtk+就是。它們都運行得很好。
    5. 兼容性。英文的utf-8編碼跟ascii完全一樣,因此也兼容標準c庫的字符串函數,如果不需要操作字符,完全不用關心語言。對于unicode,標準c庫的字符串函數不能工作,字符串函數都得重寫,常常用一個宏來控制在unicode和ascii直接切換(比如windows下的TCHAR)。
    從上面幾點來看,跟utf-8相比,unicode占據絕對優勢。只有unicode的世界真美好...
    但事實上,libn因為它并不關心字符集,所以它把接口的字符串類型全部聲明成char*了,如果libn也用unicode實現,那就完美了,可惜,這不在我的控制范圍之內。
    另外還有一種方案,在我的程序內部使用unicode,在調用libn的接口處,轉換成utf-8,傳給libn,從libn返回的utf-8字符串,先轉成unicode再使用。這個方法聽起來也不錯,但是很多對象并不是調用接口時才生成,也不是調用完就銷毀,這樣會導致我的程序內會長期存在字符串的unicode和utf-8兩種拷貝,浪費大量內存,對于嵌入式系統來說,這很難容忍。
    最終,我決定在我的程序內部使用utf-8編碼,作出這個決定的最主要原因是因為我要使用libn,雖然這樣我的程序會消耗更多的內存、需要編寫冗長難懂的字符串函數、效率也會下降,但不得不這樣。gtk+沒有使用unicode而采用utf-8,恐怕也是這樣妥協的結果吧。
    后記:utf-8函數參考了glib中的實現。



posted on 2009-02-17 15:44 飄雪 閱讀(2200) 評論(13)  編輯 收藏 引用 所屬分類: c/c++

Feedback

# re: 嵌入式系統的中文支持與國際化 2009-02-17 16:08 路人丁
你說的unicode其實特指UCS-2。
UCS-2 和 utf-8 相比較,自然是選 utf-8

"c編譯器支持wchar_t數據類型" --- wchar_t在C/C++是寬字符,而沒有規定寬字符必須是ucs-2編碼,VC的wchar_t是用ucs2編碼,而其他編譯器大部分用ucs4編碼。  回復  更多評論
  

# re: 嵌入式系統的中文支持與國際化 2009-02-17 16:16 飄雪
@路人丁
你說的很對,我上面也注明了“linux下是4字節”,不過沒有具體說ucs-2或ucs-4,另外我也提到了在沒有wchar_t支持的情況下,用short或int來模擬,其實說的也是這個問題

因為我的程序主要是嵌入式系統,所以幾乎肯定不會考慮ucs-4,這個是我沒說清楚語境  回復  更多評論
  

# re: 嵌入式系統的中文支持與國際化 2009-02-17 16:20 飄雪
@路人丁
另外你說的“UCS-2 和 utf-8 相比較,自然是選 utf-8 ”
這個我不這么認為,如果不是要使用別人的庫,我肯定不會考慮utf-8的  回復  更多評論
  

# re: 嵌入式系統的中文支持與國際化 2009-02-17 17:47 路人丁
utf-8也是unicode的一種編碼,“unicode比utf-8要快很多”的說法不夠嚴謹。  回復  更多評論
  

# re: 嵌入式系統的中文支持與國際化 2009-02-17 17:48 路人丙
上面的一條是“路人丙”回的,路人丙道歉。  回復  更多評論
  

# re: 嵌入式系統的中文支持與國際化 2009-02-17 17:51 路人丙
一直沒搞懂,Windows使用UTF-16,超過UNICODE編碼中兩個字節編碼范圍的漢字是怎么處理的。  回復  更多評論
  

# re: 嵌入式系統的中文支持與國際化 2009-02-17 18:06 飄雪
@路人丁
utf-8也是unicode的一種編碼,“unicode比utf-8要快很多”的說法不夠嚴謹

我本來想說的是處理直接用unicode(ucs-2)存儲的字符串比處理用utf-8存儲的字符串快得多,表達不夠清楚  回復  更多評論
  

# re: 嵌入式系統的中文支持與國際化 2009-02-17 20:49 路人戊
好奇那個libn是什么,為何能夠不依賴編碼。畢竟mbcs和utf8結構上差別還是挺大的。如果只是寫成char*來拿raw data的話,直接把unsigned short*轉成char*不行么……  回復  更多評論
  

# re: 嵌入式系統的中文支持與國際化 2009-02-18 05:52 路人乙
@路人丙
還要再查表,對于某些超出unicode編碼范圍的字符,內存里的其實是外表的表id和表內索引,去那個外表再取字。  回復  更多評論
  

# re: 嵌入式系統的中文支持與國際化 2009-02-18 11:06 飄雪
好奇那個libn是什么,為何能夠不依賴編碼。畢竟mbcs和utf8結構上差別還是挺大的。如果只是寫成char*來拿raw data的話,直接把unsigned short*轉成char*不行么……


libn對于字符串的處理很簡單,不做substr之類的操作,實際上里面用得最多的可能是strcmp,只比較字符串,這樣的話utf-8能正常工作,unsigned short就不能工作了  回復  更多評論
  

# re: 嵌入式系統的中文支持與國際化 2009-02-23 17:21 Agaric
@路人丙
UTF16不一定是"雙字節"。

代碼點存在于“代碼空間”中。代碼空間由許多標量值組成,這些值被劃分在兩個平面中:

基本多語種平面(64k 大小)。
在 Unicode 中,此下平面中的值的十六進制表示位于 U+0000 到 U+FFFF 的范圍中。

輔助多語種平面(16 個 64k 大小的附加節)。
在 Unicode 中,此上平面中的值的十六進制表示位于 U+10000 到 U+10FFFF 的范圍中。
  回復  更多評論
  

# re: 嵌入式系統的中文支持與國際化 2009-03-05 12:04 飄雪
@路人丙
一直沒搞懂,Windows使用UTF-16,超過UNICODE編碼中兩個字節編碼范圍的漢字是怎么處理的。

可參看 http://www.ietf.org/rfc/rfc2781.txt,
rfc2279: UTF-8, a transformation format of ISO 10646
  回復  更多評論
  

# re: 嵌入式系統的中文支持與國際化 2009-03-05 12:04 飄雪
@路人丙
一直沒搞懂,Windows使用UTF-16,超過UNICODE編碼中兩個字節編碼范圍的漢字是怎么處理的。

可參看 http://www.ietf.org/rfc/rfc2781.txt,
rfc2781: UTF-16, an encoding of ISO 10646

  回復  更多評論
  


只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美岛国激情| 欧美二区视频| 国产精品视频1区| 美女精品自拍一二三四| 亚洲欧美视频在线观看| 久久亚洲私人国产精品va| 欧美一区2区三区4区公司二百| 亚洲精品国精品久久99热一| 亚洲国产婷婷| 亚洲人体1000| 亚洲精品久久嫩草网站秘色 | 欧美日本一区二区高清播放视频| 性8sex亚洲区入口| 欧美一级视频一区二区| 99国产精品视频免费观看| 亚洲精品久久7777| 亚洲黄色在线| 亚洲靠逼com| 在线视频亚洲一区| 中文久久乱码一区二区| 亚洲欧美国产77777| 亚洲男人的天堂在线观看| 亚洲综合色丁香婷婷六月图片| 宅男精品视频| 一区二区三区在线不卡| 久久亚洲高清| 欧美顶级少妇做爰| 老色鬼久久亚洲一区二区| 欧美成人tv| 欧美视频在线播放| 欧美日韩精品伦理作品在线免费观看| 久久精品国产99国产精品| 久久经典综合| 欧美久久在线| 国产日产欧美精品| 亚洲高清视频一区| 国产一区二区三区高清在线观看| 激情久久五月天| 一区二区三区|亚洲午夜| 午夜精品福利一区二区三区av| 欧美自拍偷拍午夜视频| 欧美成人激情视频| 噜噜噜在线观看免费视频日韩 | 亚洲欧洲日韩综合二区| 亚洲一二三区在线观看| 久久日韩粉嫩一区二区三区| 欧美日韩免费看| 国产亚洲精品美女| 狠狠爱成人网| 亚洲高清在线播放| 午夜精品福利一区二区三区av| 免费久久精品视频| 亚洲欧美成人网| 女同性一区二区三区人了人一 | 日韩午夜激情电影| 久久久久在线| 亚洲视频一区| 欧美国产视频日韩| 国产在线观看91精品一区| 在线视频欧美一区| 亚洲第一毛片| 久久久午夜电影| 国产精品专区一| 亚洲神马久久| 亚洲国产欧洲综合997久久| 久久久国产精品一区| 欧美高清视频一区| 国产精品家教| 亚洲无毛电影| 亚洲精品视频一区| 欧美sm视频| 在线日韩中文字幕| 久久久噜噜噜久久| 亚洲欧美一区在线| 国产精品免费福利| 亚洲午夜精品久久| 日韩视频第一页| 亚洲黄色尤物视频| 国产精品日韩在线一区| 一区二区三区高清视频在线观看| 欧美bbbxxxxx| 久久艳片www.17c.com| 国产综合久久| 久久久成人精品| 欧美亚洲一区| 国产日韩视频| 亚洲一区二区三区三| 麻豆精品一区二区综合av| 午夜精品一区二区三区四区 | 欧美日韩成人综合在线一区二区| 亚洲精品国精品久久99热一| 欧美激情四色| 欧美日本二区| 亚洲一区二区在线| 亚洲一区二区精品视频| 国产目拍亚洲精品99久久精品| 亚洲日本va午夜在线电影 | 亚洲一区中文字幕在线观看| 国产精品99久久久久久白浆小说| 国产精品成人久久久久| 午夜精品亚洲| 久久精品九九| 亚洲美女av黄| 亚洲在线成人| 国产精品一级| 亚洲女与黑人做爰| 欧美一区二区精品| 亚洲精品少妇30p| 99国内精品| 国产日韩欧美一区| 亚洲成色777777在线观看影院| 欧美日韩hd| 日韩视频在线播放| 亚洲免费在线视频| 亚洲欧洲在线视频| 亚洲欧美中文日韩v在线观看| 在线免费观看日韩欧美| 99视频一区二区| 韩国av一区二区| 91久久久久久久久| 国内精品久久久久久| 99视频在线观看一区三区| 韩国av一区二区三区在线观看 | 在线视频精品| 国产精品日韩一区| 久久本道综合色狠狠五月| 你懂的视频欧美| 欧美影院久久久| 欧美绝品在线观看成人午夜影视| 久久激情视频久久| 欧美日韩免费高清| 欧美激情aⅴ一区二区三区| 欧美视频中文一区二区三区在线观看 | 久久精品女人天堂| 欧美日韩18| 卡通动漫国产精品| 国产精品欧美一区喷水| 99国产精品99久久久久久| 亚洲国产日韩欧美| 久久aⅴ国产欧美74aaa| 午夜精品一区二区在线观看| 国产精品扒开腿做爽爽爽软件| 亚洲卡通欧美制服中文| 一本久道久久综合狠狠爱| 欧美激情一区二区三区在线视频观看| 欧美成人精品| 日韩性生活视频| 欧美日韩在线不卡| 亚洲一区bb| 久久久精品网| 亚洲第一主播视频| 欧美久久精品午夜青青大伊人| 亚洲美女色禁图| 亚洲视频你懂的| 国产农村妇女精品一区二区| 久久精品视频在线免费观看| 欧美成在线视频| av成人免费在线观看| 国产精品久久亚洲7777| 欧美一区二区三区视频| 欧美激情免费在线| 亚洲欧美在线aaa| 一区二区自拍| 欧美日韩1234| 久久都是精品| 亚洲精品免费在线播放| 欧美一进一出视频| 亚洲黄色有码视频| 国产精品少妇自拍| 美女黄毛**国产精品啪啪| 一区二区三区欧美日韩| 久久资源在线| 亚洲欧美日韩在线观看a三区 | 亚洲永久免费观看| 欧美国产日本高清在线| 亚洲免费伊人电影在线观看av| 伊人久久久大香线蕉综合直播| 欧美国产精品人人做人人爱| 亚洲欧美久久久| 亚洲国产精品成人一区二区| 午夜在线一区| 亚洲人成人一区二区三区| 国产日产欧产精品推荐色| 欧美成人精品1314www| 亚洲欧美日韩国产成人精品影院| 欧美激情二区三区| 久久久久久久尹人综合网亚洲| 亚洲美女毛片| 影音先锋在线一区| 国产欧美日韩视频一区二区三区| 欧美电影在线免费观看网站| 欧美在线播放视频| 亚洲天堂免费在线观看视频| 亚洲高清资源| 免费欧美日韩| 狂野欧美激情性xxxx欧美| 欧美亚洲一区二区在线| 一本一本久久| 亚洲深夜福利视频| 一区二区三区 在线观看视|