青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 17  文章 - 48  trackbacks - 0
<2012年5月>
293012345
6789101112
13141516171819
20212223242526
272829303112
3456789

常用鏈接

留言簿(3)

隨筆檔案

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

這篇文章是我兩年多前寫給同事看的,當時不少同事對編碼了解甚少,直到現在發現還是很多人對編碼了解甚少,所以我就把這篇文章發出來讓大家參考一下,希望對一些人有幫助,不過這篇文章是當時花了3個小時左右寫的,錯誤在所難免。

字符編碼歷史

計算機,發明在20世紀中期西方國家。計算機內部使用二進制作為表示任何東西的基礎,為了能夠在計算機中使用整數、浮點數等都要對其進行編碼,只是這個編碼是在硬件層的(CPU指令),而計算機要與人進行交互就要對人所能識別的文字進行編碼,ASCII就在那個時候誕生。

ASCII(American Standard Code for Information Interchange,美國信息互換標準代碼)

美國標準編碼,用于編碼英文字母的編碼方式。它用了0-127的數字之間來表示a-z等可見字符和一些控制字符,而這個字符集的編碼就確定了ASCII字符集,而這個字符集要想要在計算機的二進制方式下使用就必須用計算機能夠理解的方式來處理,ASCII使用了一個計算機字節來表示這種編碼方式,在C/C++語言中一個字節通常我們使用char來表示。

GBK

GBK,大家都知道,漢字內碼擴展規范GBK是怎么來的呢?GBKGB2312擴展來的,GB2312是最早的中文編碼方式。GB2312又是怎么來的呢?

計算機發展到80年代在中國開始慢慢的興起。為了能夠讓中國人能夠更好的使用計算機自然要引入中文編碼到計算機中。但是引入中文編碼遇到了一個問題,就是ASCII使用一個字節(char)來編碼字符,但是中國的漢字是肯定不能夠在一個字節中表示完全,怎么辦?聰明的中國人發現一個字節(char)可表示的最大區間是0-255,而ASCII只使用了0-127,128-255并沒有使用,那么我們就可以用多個字節來表示中文編碼比如:

一個字節(char)的值是在0-127之間,我們就還是用這個字節來表示ASCII里面的字符,也就是說兼容ASCII

一個字節(char)的值是在128-255之間(此處假設是130),則說明它不是在ASCII字符集里面的,那它表示什么字符呢?此種情況下,則要在讀取下一個字節(char)的值(此處假設是10),那么就將兩個字節的值:13010按照某種計算規則來計算等到一個值,此處計算得到3290,那么這個值可以在一個字符編碼表中去查,它可能得到某個漢字,此處假設為‘字’字然后就可以在屏幕上顯示出來了。

(此處的計算都是假設,我沒有詳細查,以后有時間再更正,理解原理即可。也可以查看維基百科了解詳細。

GBK中有哪些字符?

GBK是微軟利用GB2312未使用的編碼空間,收入GB13000.1的全部字符制定而來。GBK是用來編碼中文漢字的,并且兼容ASCII字符集。GBK中是不是只有簡體中文呢?

因為簡體漢字和繁體漢字有很大一部分是相同,把常見的幾千個繁體中文里面的漢字編碼進來也不會多多少,因此,GBK里面也是有繁體中文漢字的。

除此之外還有什么,因為現在簡體和繁體的常見字都編碼了,那日文里面的大多數文字也都在其中,只需要將日文的平假名和片假名(也就幾十個字符)編碼進來。

因此,GBK里面是有常見的簡體中文、繁體中文、日文等字符在一起的字符集。

Big5等編碼

中國人發明了多字節編碼的方式,但是只能編碼中國漢字(包括簡繁和日文)。其他國家和中國臺灣想要編碼文字自然就會采用相似的方式來編碼,Big5等編碼方式就產生了,它們同樣按照某種計算方式計算出值,此處假設還是3290,但是他們的編碼表和GBK不一樣,所以他們代表的文字就不在是‘字’了。

Windows ANSI編碼

GBK、Big5等編碼就是ANSI編碼,也叫本地碼。ANSI編碼就是本地碼的統稱,就是在什么國家或地區就是什么編碼比如在中國的大陸地區就是GBK,在中國臺灣就是Big5

亂碼

亂碼,很常見也很煩的一個Bug,編碼Bug

假設我們在簡體中文的機器上,那么本地碼是GBK,我們用它編碼了一文字保存在txt文件里面,然后把它拷貝到繁體中文的機器上,此處的本地碼是Big5,然后打開這個文件,假設我們使用記事本打開,它打開文件使用的默認編碼就是本地碼,即Big5,按照Big5的方式計算值,并依次查字符編碼表,然后顯示出來。亂碼來了,本來在GBK中編碼的有意義的字句,在Big5下計算查表出來得到的是一文字字符,而這文字字符連接在一起沒有任何意思,因此亂碼。

亂碼和字體

亂碼是編碼引起的,而在文字顯示中是要去字體中查詢到某個字符的形狀,然后顯示,有可能出現字體里面沒有這個文字,那么就會用一個默認的字符顯示,此時給人的感覺也像亂碼,通常表現出很多個字符都是一個樣子(比如一個白框),但是它不是亂碼,只是字體中沒有文字的信息,換個字體就能顯示。

UNICODE

隨著互聯網的發展,各個國家基本上都有自己的本地編碼ANSI編碼。為此,系統要支持多過的本地編碼,怎么辦?引入代碼頁code page,根據代碼頁號去查相應的字符集,GBK的代碼頁就是CP936(有細微差別,詳細可以查看維基百科)

但是代碼頁還是不能將不同字符集中的字符在同一系統中顯示,比如:漢字和阿拉伯文不能同時顯示。UNICODE誕生了。

UNICODE就是要將所有的字符全部編碼在一個字符集里面,比如1-10000編碼簡體中文,10001-20000編碼繁體中文,依次類推,這樣就構成了UNICODE字符集。但是UNICODE字符集并沒說要怎么編碼,只是說某個數字代表某個字符,即之規定了數字到字符的的字典,但是沒有規定在計算機中怎么編碼。

UCS(Universal Character Set)/UTF(Unicode transformation format)

為了在計算機中編碼字符,就出現了UCS/UTF編碼,常見的有UTF-8UTF-16UCS-2),UTF-32UCS-4)編碼。

UTF-8是類似GBK編碼的一種編碼,就是用多個字節編碼計算出值然后查表,它可以是一個字節(也就是兼容ASCII)表示一個字符,可以是兩個、三個、四個或者更多個字節根據計算得到某個值,然后去查UNICODE表得到某個字符,這樣就將所有字符進行了編碼。

UTF-16則至少是需要兩個字節來表示,也就是說,可以由兩個字節計算得到某個值,也可以是四個字節、六個字節、八個字節計算出值然后查表得到字符。

UTF-32則至少是需要四個字節表示,以此類推

C/C++中的編碼

char在C/C++中表示一個字節,通常也用它來表示編碼字符,如果它編碼的字符是ASCII編碼,則是每個字節都表示一個字符,也就是說每個char表示一個字符。如果編碼是ANSI,此處假設是GBK編碼,那么可以是一個char表示的字符,也可以是兩個char表示一個字符。如果是UTF-8編碼,那么可以是一個char、兩個char、三個char或者更多來表示一個字符。

wchar_t是C/C++中的寬字符,標準沒有規定它占幾個字節,只是規定用來編碼unicode字符集,一個wchar_twindowswchar_tUTF-16編碼)下面占2個字節,在linuxwchar_tUTF-32編碼)下面占4個字節,用wchar_t來編碼unicode的話,常見字符都可以用一個wchar_t來表示。但是unicode字符集一直在擴充引入更多的字符,所以很有可能一個wchar_twindows)不能表示出80001號字符,那么也就出現兩個wchar_t表示一個字符,這也就正好符合UTF-16編碼的規則。

C/C++中的亂碼解決方法

亂碼其實是無解的。大多數軟件的軟件的處理方式就是只處理UNICODEUTF-8ANSI編碼,因此一段文字的ANSI編碼和打開機器的本地碼不一樣那么就必然出現亂碼,當然若人為的告訴軟件說這段文字是某個code page編碼的,那么還是可以正確顯示,但是這是依靠人為操作了。

軟件里面處理這個問題處理的最好的有一類軟件,就是瀏覽器。瀏覽器檢測文本編碼的方式通常就是猜,猜它是哪種編碼,猜完是哪種編碼之后就用相應的code page去查字符,然后顯示。那么這個猜是不是亂猜呢?不是,是通過逐個字節掃描進行統計,看看這段文本最可能是哪種編碼。當然這樣做也會有錯誤,那么也一樣會出現亂碼,但是已經出現亂碼的幾率很低了。(想詳細了解可以查看firefoxchrome的源碼)

看不懂比亂碼好

假設一個程序是用的是GBK編碼的字符串,那么在一個日文操作系統(Windows)上,軟件的字符那將是亂碼,這給人一個很不好的感受。即使此軟件沒有日文版,但是如果能夠將簡體中文正確的顯示出來那還是要好上許多的,說不定使用軟件的人還是個懂中文的人。

C++里怎么做?Windows從NT開始就支持寬字符版本的API,對于所有使用API的地方都是用寬字符版本就能夠正常的顯示出文字了,在C++中就是使用wchar_t。比如:

wchar_t *wstr = L"中文";

然后用對應的寬字符版本的API來顯示出來就可以了。那是不是程序內部全部都應該使用wchar_t來表示字符?我個人推薦只在Windows下運行的程序這么做,也就是跟字符顯示不相關的東西也使用wchar_t來表示。當然,也可以根據情況在只在顯示字符的時候通過調用MultiByteToWideChar將其它編碼的字符轉換成寬字符來顯示,這樣顯示不相關的字符就可以使用多字節字符集(ANSI、UTF-8)了。

對于跨平臺的軟件(Windows、Linux),我個人推薦使用UTF-8編碼的字符來作為內部處理的字符,這樣在只需要在字符顯示的地方轉換成相應的編碼就可以了。當然主要還是在Windows上面做處理,調用MultiByteToWideChar將UTF-8轉換成寬字符然后顯示。

UTF-8在C++ 98中的表示

在目前的C++標準中,我們通常不能直接在代碼里面寫出UTF-8編碼的字符串常量。

char *str = "中文"; // 對于VS,只有源文件是不帶BOM的UTF-8編碼時才是UTF-8字符串,對于帶BOM的UTF-8編碼或者GBK編碼的文件都是GBK的字符串;
                    // 對于GCC,源文件編碼是什么那么這個字符串的編碼就是什么。

wchar_t *wstr = L"中文"; // 這里使用的是unicode編碼

但是,因為ANSI編碼和UTF-8編碼都是兼容ASCII編碼的,所以我們可以在代碼里面這樣寫:

char *str = "abc";  // 此處的編碼是ASCII、ANSI、UTF-8

也就是上面這段字符是可以當成ANSI編碼也可以當成是UTF-8編碼的,那么我們就可以將它當成UTF-8編碼來使用。所以在代碼里面最好不要出現字母以外的字符。(當然,不考慮多語言版的話除外

那我們要與用戶交互的時候不能是英文字母啊我們可以從資源文件中讀取,即我們可以將要顯示的字符放置到ini、XML以及其它文本文件中,這些文件以UTF-8編碼。這樣我們程序就從資源文件中讀取這些UTF-8編碼的字符就可以了。這也就可以很好的做多語言版本了,只要將資源文件中的字符改成其它語言的字符就可以了,當然編碼還是UTF-8。(Windows下窗口相關的資源.rc也使用UNICODE編碼就行)

這樣做值得么?值得不值得就看我們的程序是不是需要做多語言版,或者將來要不要做多語言版,如果要,這就是值得的,不要當然就無所謂了。

UTF-8在C++ 11中的表示

C++ 98中不能寫出UTF-8、UTF-16、UTF-32的字符串常量,C++ 11加入了新字符類型char16_t和char32_t,其相應的常量表示如下:

u8"中文"; // 表示用UTF-8編碼的字符串常量

u"中文";  // 表示用UTF-16編碼的字符串常量

U"中文";  // 表示用UTF-32編碼的字符串常量

posted on 2012-12-23 13:44 airtrack 閱讀(4543) 評論(0)  編輯 收藏 引用
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            在线午夜精品| 亚洲午夜av| 日韩视频在线一区二区三区| 国产一区久久| 国产亚洲人成a一在线v站 | 久久久久久97三级| 亚洲视频你懂的| 亚洲一区二区高清视频| 日韩午夜三级在线| 亚洲精品中文字幕女同| 日韩视频免费在线观看| 欧美高清不卡在线| 亚洲精选在线| 国内免费精品永久在线视频| 亚洲第一在线综合在线| 日韩午夜剧场| 久久久精品动漫| 亚洲日本成人在线观看| 99成人精品| 羞羞答答国产精品www一本| 久久久亚洲高清| 欧美精品在线网站| 欧美日韩国产成人在线观看| 国产欧美亚洲日本| 亚洲美女免费精品视频在线观看| 一本色道婷婷久久欧美| 久久综合免费视频影院| 亚洲欧洲av一区二区三区久久| 欧美风情在线| 国内精品免费在线观看| 亚洲免费网站| 亚洲高清成人| 久久一二三四| 伊人夜夜躁av伊人久久| 亚洲欧美制服另类日韩| 亚洲二区免费| 亚洲午夜成aⅴ人片| 你懂的国产精品| 欧美在线播放一区二区| 国产精品免费视频xxxx| 亚洲一区欧美二区| 亚洲在线观看免费视频| 国产自产高清不卡| 男人的天堂亚洲| 欧美精品在线看| 亚洲欧美在线x视频| 欧美一区二区三区在线| 一区二区三区在线观看欧美| 欧美freesex8一10精品| 国产精品白丝jk黑袜喷水| 欧美亚洲自偷自偷| 久久久久久九九九九| 亚洲理论在线| 亚洲综合第一| 99国产精品视频免费观看一公开 | 国产精品日韩久久久| 亚洲免费一在线| 久久精品国产一区二区三区免费看| 狠狠色伊人亚洲综合成人| 欧美激情欧美狂野欧美精品| 美女尤物久久精品| 一区二区三区欧美视频| 午夜久久美女| 91久久国产综合久久蜜月精品| 亚洲精品日韩激情在线电影| 国产欧美日韩视频| 99视频热这里只有精品免费| 亚洲国产成人午夜在线一区| 国产精品久久久99| 国产日韩欧美在线看| 亚洲精品在线视频| 国产色产综合产在线视频| 亚洲国产精品一区二区久| 欧美视频精品一区| 亚洲电影在线看| 伊人男人综合视频网| 亚洲欧美中文日韩在线| 亚洲一级片在线观看| 欧美国产一区视频在线观看| 久久一区二区三区四区五区| 国产精品亚发布| 正在播放欧美视频| 亚洲在线一区二区| 国产精品日本欧美一区二区三区| 日韩视频专区| 亚洲免费网址| 揄拍成人国产精品视频| 美女黄网久久| 亚洲精品偷拍| 午夜精品久久久久久99热| 国产精品久久综合| 久久精品观看| 一区二区不卡在线视频 午夜欧美不卡'| 日韩午夜在线| 国产亚洲高清视频| 欧美高清一区二区| 亚洲视频一区在线观看| 老**午夜毛片一区二区三区| 亚洲日本成人女熟在线观看| 欧美精品一区二区三| 亚洲欧美日韩久久精品| 久久最新视频| 午夜老司机精品| 亚洲精品五月天| 国产精品一区毛片| 欧美激情一区二区三区在线| 欧美一区二区三区视频在线| 亚洲狼人综合| 欧美网站在线| 免费在线欧美视频| 亚洲欧美国产毛片在线| 亚洲精选久久| 免费成人av在线看| 久久国产精彩视频| 欧美一区二区三区的| 日韩午夜在线| 亚洲美女性视频| 9l视频自拍蝌蚪9l视频成人| 亚洲精品美女在线| 亚洲日本中文| 在线一区观看| 亚洲男同1069视频| 亚洲专区欧美专区| 亚洲综合不卡| 久久av红桃一区二区小说| 欧美一区午夜精品| 噜噜爱69成人精品| 欧美成人高清视频| 欧美激情综合色综合啪啪 | 国产精品乱人伦中文| 国产精品免费观看在线| 国产毛片精品国产一区二区三区| 国产精品国产三级国产专播品爱网| 欧美日韩精品系列| 国产精品一区一区三区| 国外成人性视频| av成人免费观看| 久久综合999| 亚洲国产成人在线| 亚洲性视频网站| 免费看的黄色欧美网站| 国产精品日日摸夜夜添夜夜av| 精品动漫3d一区二区三区| 亚洲日韩成人| 午夜视频在线观看一区| 欧美国产欧美综合| 性欧美xxxx大乳国产app| 欧美日本一道本在线视频| 狠狠色丁香久久婷婷综合丁香| 欧美va亚洲va国产综合| 国产日韩精品入口| 亚洲视频第一页| 最新日韩欧美| 久久久久网站| 在线日韩av| 欧美激情视频一区二区三区免费 | 中文网丁香综合网| 亚洲福利视频一区| 久久一区欧美| 亚洲国产精品久久久久秋霞不卡| 午夜精品久久久久久久久久久久 | 国产午夜精品全部视频在线播放 | 一区二区精品在线| 欧美gay视频| 欧美激情精品久久久久久久变态| 亚洲国产精品尤物yw在线观看| 亚洲第一久久影院| 欧美日韩国产精品成人| 一区二区三区四区五区视频| 亚洲国产午夜| 国产丝袜美腿一区二区三区| 女人色偷偷aa久久天堂| 久久综合色婷婷| 在线视频亚洲欧美| 久久大综合网| 在线亚洲激情| 久久久五月婷婷| 99re66热这里只有精品4| 亚洲午夜激情| 日韩视频一区二区在线观看 | 国产日韩一区在线| 欧美激情一区二区在线| 国产精品久久久爽爽爽麻豆色哟哟| 欧美一区二区视频观看视频| 久久久久久久久岛国免费| 亚洲视频中文字幕| 欧美成年视频| 久久精品一区二区三区中文字幕| 老司机久久99久久精品播放免费| 亚洲欧美第一页| 欧美日韩日日骚| 一区二区高清在线观看| 亚洲国产人成综合网站| 欧美在线观看网站| 欧美一区91| 国产一级精品aaaaa看| 亚洲欧美国产高清va在线播| 亚洲一区二区av电影| 国产精品xxxav免费视频| 一本色道久久综合亚洲精品小说 |