青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 17  文章 - 48  trackbacks - 0
<2012年8月>
2930311234
567891011
12131415161718
19202122232425
2627282930311
2345678

常用鏈接

留言簿(3)

隨筆檔案

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

這篇文章是我兩年多前寫給同事看的,當時不少同事對編碼了解甚少,直到現在發現還是很多人對編碼了解甚少,所以我就把這篇文章發出來讓大家參考一下,希望對一些人有幫助,不過這篇文章是當時花了3個小時左右寫的,錯誤在所難免。

字符編碼歷史

計算機,發明在20世紀中期西方國家。計算機內部使用二進制作為表示任何東西的基礎,為了能夠在計算機中使用整數、浮點數等都要對其進行編碼,只是這個編碼是在硬件層的(CPU指令),而計算機要與人進行交互就要對人所能識別的文字進行編碼,ASCII就在那個時候誕生。

ASCII(American Standard Code for Information Interchange,美國信息互換標準代碼)

美國標準編碼,用于編碼英文字母的編碼方式。它用了0-127的數字之間來表示a-z等可見字符和一些控制字符,而這個字符集的編碼就確定了ASCII字符集,而這個字符集要想要在計算機的二進制方式下使用就必須用計算機能夠理解的方式來處理,ASCII使用了一個計算機字節來表示這種編碼方式,在C/C++語言中一個字節通常我們使用char來表示。

GBK

GBK,大家都知道,漢字內碼擴展規范GBK是怎么來的呢?GBKGB2312擴展來的,GB2312是最早的中文編碼方式。GB2312又是怎么來的呢?

計算機發展到80年代在中國開始慢慢的興起。為了能夠讓中國人能夠更好的使用計算機自然要引入中文編碼到計算機中。但是引入中文編碼遇到了一個問題,就是ASCII使用一個字節(char)來編碼字符,但是中國的漢字是肯定不能夠在一個字節中表示完全,怎么辦?聰明的中國人發現一個字節(char)可表示的最大區間是0-255,而ASCII只使用了0-127,128-255并沒有使用,那么我們就可以用多個字節來表示中文編碼比如:

一個字節(char)的值是在0-127之間,我們就還是用這個字節來表示ASCII里面的字符,也就是說兼容ASCII

一個字節(char)的值是在128-255之間(此處假設是130),則說明它不是在ASCII字符集里面的,那它表示什么字符呢?此種情況下,則要在讀取下一個字節(char)的值(此處假設是10),那么就將兩個字節的值:13010按照某種計算規則來計算等到一個值,此處計算得到3290,那么這個值可以在一個字符編碼表中去查,它可能得到某個漢字,此處假設為‘字’字然后就可以在屏幕上顯示出來了。

(此處的計算都是假設,我沒有詳細查,以后有時間再更正,理解原理即可。也可以查看維基百科了解詳細。

GBK中有哪些字符?

GBK是微軟利用GB2312未使用的編碼空間,收入GB13000.1的全部字符制定而來。GBK是用來編碼中文漢字的,并且兼容ASCII字符集。GBK中是不是只有簡體中文呢?

因為簡體漢字和繁體漢字有很大一部分是相同,把常見的幾千個繁體中文里面的漢字編碼進來也不會多多少,因此,GBK里面也是有繁體中文漢字的。

除此之外還有什么,因為現在簡體和繁體的常見字都編碼了,那日文里面的大多數文字也都在其中,只需要將日文的平假名和片假名(也就幾十個字符)編碼進來。

因此,GBK里面是有常見的簡體中文、繁體中文、日文等字符在一起的字符集。

Big5等編碼

中國人發明了多字節編碼的方式,但是只能編碼中國漢字(包括簡繁和日文)。其他國家和中國臺灣想要編碼文字自然就會采用相似的方式來編碼,Big5等編碼方式就產生了,它們同樣按照某種計算方式計算出值,此處假設還是3290,但是他們的編碼表和GBK不一樣,所以他們代表的文字就不在是‘字’了。

Windows ANSI編碼

GBK、Big5等編碼就是ANSI編碼,也叫本地碼。ANSI編碼就是本地碼的統稱,就是在什么國家或地區就是什么編碼比如在中國的大陸地區就是GBK,在中國臺灣就是Big5

亂碼

亂碼,很常見也很煩的一個Bug,編碼Bug

假設我們在簡體中文的機器上,那么本地碼是GBK,我們用它編碼了一文字保存在txt文件里面,然后把它拷貝到繁體中文的機器上,此處的本地碼是Big5,然后打開這個文件,假設我們使用記事本打開,它打開文件使用的默認編碼就是本地碼,即Big5,按照Big5的方式計算值,并依次查字符編碼表,然后顯示出來。亂碼來了,本來在GBK中編碼的有意義的字句,在Big5下計算查表出來得到的是一文字字符,而這文字字符連接在一起沒有任何意思,因此亂碼。

亂碼和字體

亂碼是編碼引起的,而在文字顯示中是要去字體中查詢到某個字符的形狀,然后顯示,有可能出現字體里面沒有這個文字,那么就會用一個默認的字符顯示,此時給人的感覺也像亂碼,通常表現出很多個字符都是一個樣子(比如一個白框),但是它不是亂碼,只是字體中沒有文字的信息,換個字體就能顯示。

UNICODE

隨著互聯網的發展,各個國家基本上都有自己的本地編碼ANSI編碼。為此,系統要支持多過的本地編碼,怎么辦?引入代碼頁code page,根據代碼頁號去查相應的字符集,GBK的代碼頁就是CP936(有細微差別,詳細可以查看維基百科)

但是代碼頁還是不能將不同字符集中的字符在同一系統中顯示,比如:漢字和阿拉伯文不能同時顯示。UNICODE誕生了。

UNICODE就是要將所有的字符全部編碼在一個字符集里面,比如1-10000編碼簡體中文,10001-20000編碼繁體中文,依次類推,這樣就構成了UNICODE字符集。但是UNICODE字符集并沒說要怎么編碼,只是說某個數字代表某個字符,即之規定了數字到字符的的字典,但是沒有規定在計算機中怎么編碼。

UCS(Universal Character Set)/UTF(Unicode transformation format)

為了在計算機中編碼字符,就出現了UCS/UTF編碼,常見的有UTF-8UTF-16UCS-2),UTF-32UCS-4)編碼。

UTF-8是類似GBK編碼的一種編碼,就是用多個字節編碼計算出值然后查表,它可以是一個字節(也就是兼容ASCII)表示一個字符,可以是兩個、三個、四個或者更多個字節根據計算得到某個值,然后去查UNICODE表得到某個字符,這樣就將所有字符進行了編碼。

UTF-16則至少是需要兩個字節來表示,也就是說,可以由兩個字節計算得到某個值,也可以是四個字節、六個字節、八個字節計算出值然后查表得到字符。

UTF-32則至少是需要四個字節表示,以此類推

C/C++中的編碼

char在C/C++中表示一個字節,通常也用它來表示編碼字符,如果它編碼的字符是ASCII編碼,則是每個字節都表示一個字符,也就是說每個char表示一個字符。如果編碼是ANSI,此處假設是GBK編碼,那么可以是一個char表示的字符,也可以是兩個char表示一個字符。如果是UTF-8編碼,那么可以是一個char、兩個char、三個char或者更多來表示一個字符。

wchar_t是C/C++中的寬字符,標準沒有規定它占幾個字節,只是規定用來編碼unicode字符集,一個wchar_twindowswchar_tUTF-16編碼)下面占2個字節,在linuxwchar_tUTF-32編碼)下面占4個字節,用wchar_t來編碼unicode的話,常見字符都可以用一個wchar_t來表示。但是unicode字符集一直在擴充引入更多的字符,所以很有可能一個wchar_twindows)不能表示出80001號字符,那么也就出現兩個wchar_t表示一個字符,這也就正好符合UTF-16編碼的規則。

C/C++中的亂碼解決方法

亂碼其實是無解的。大多數軟件的軟件的處理方式就是只處理UNICODEUTF-8ANSI編碼,因此一段文字的ANSI編碼和打開機器的本地碼不一樣那么就必然出現亂碼,當然若人為的告訴軟件說這段文字是某個code page編碼的,那么還是可以正確顯示,但是這是依靠人為操作了。

軟件里面處理這個問題處理的最好的有一類軟件,就是瀏覽器。瀏覽器檢測文本編碼的方式通常就是猜,猜它是哪種編碼,猜完是哪種編碼之后就用相應的code page去查字符,然后顯示。那么這個猜是不是亂猜呢?不是,是通過逐個字節掃描進行統計,看看這段文本最可能是哪種編碼。當然這樣做也會有錯誤,那么也一樣會出現亂碼,但是已經出現亂碼的幾率很低了。(想詳細了解可以查看firefoxchrome的源碼)

看不懂比亂碼好

假設一個程序是用的是GBK編碼的字符串,那么在一個日文操作系統(Windows)上,軟件的字符那將是亂碼,這給人一個很不好的感受。即使此軟件沒有日文版,但是如果能夠將簡體中文正確的顯示出來那還是要好上許多的,說不定使用軟件的人還是個懂中文的人。

C++里怎么做?Windows從NT開始就支持寬字符版本的API,對于所有使用API的地方都是用寬字符版本就能夠正常的顯示出文字了,在C++中就是使用wchar_t。比如:

wchar_t *wstr = L"中文";

然后用對應的寬字符版本的API來顯示出來就可以了。那是不是程序內部全部都應該使用wchar_t來表示字符?我個人推薦只在Windows下運行的程序這么做,也就是跟字符顯示不相關的東西也使用wchar_t來表示。當然,也可以根據情況在只在顯示字符的時候通過調用MultiByteToWideChar將其它編碼的字符轉換成寬字符來顯示,這樣顯示不相關的字符就可以使用多字節字符集(ANSI、UTF-8)了。

對于跨平臺的軟件(Windows、Linux),我個人推薦使用UTF-8編碼的字符來作為內部處理的字符,這樣在只需要在字符顯示的地方轉換成相應的編碼就可以了。當然主要還是在Windows上面做處理,調用MultiByteToWideChar將UTF-8轉換成寬字符然后顯示。

UTF-8在C++ 98中的表示

在目前的C++標準中,我們通常不能直接在代碼里面寫出UTF-8編碼的字符串常量。

char *str = "中文"; // 對于VS,只有源文件是不帶BOM的UTF-8編碼時才是UTF-8字符串,對于帶BOM的UTF-8編碼或者GBK編碼的文件都是GBK的字符串;
                    // 對于GCC,源文件編碼是什么那么這個字符串的編碼就是什么。

wchar_t *wstr = L"中文"; // 這里使用的是unicode編碼

但是,因為ANSI編碼和UTF-8編碼都是兼容ASCII編碼的,所以我們可以在代碼里面這樣寫:

char *str = "abc";  // 此處的編碼是ASCII、ANSI、UTF-8

也就是上面這段字符是可以當成ANSI編碼也可以當成是UTF-8編碼的,那么我們就可以將它當成UTF-8編碼來使用。所以在代碼里面最好不要出現字母以外的字符。(當然,不考慮多語言版的話除外

那我們要與用戶交互的時候不能是英文字母啊我們可以從資源文件中讀取,即我們可以將要顯示的字符放置到ini、XML以及其它文本文件中,這些文件以UTF-8編碼。這樣我們程序就從資源文件中讀取這些UTF-8編碼的字符就可以了。這也就可以很好的做多語言版本了,只要將資源文件中的字符改成其它語言的字符就可以了,當然編碼還是UTF-8。(Windows下窗口相關的資源.rc也使用UNICODE編碼就行)

這樣做值得么?值得不值得就看我們的程序是不是需要做多語言版,或者將來要不要做多語言版,如果要,這就是值得的,不要當然就無所謂了。

UTF-8在C++ 11中的表示

C++ 98中不能寫出UTF-8、UTF-16、UTF-32的字符串常量,C++ 11加入了新字符類型char16_t和char32_t,其相應的常量表示如下:

u8"中文"; // 表示用UTF-8編碼的字符串常量

u"中文";  // 表示用UTF-16編碼的字符串常量

U"中文";  // 表示用UTF-32編碼的字符串常量

posted on 2012-12-23 13:44 airtrack 閱讀(4543) 評論(0)  編輯 收藏 引用
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美激情aaaa| 经典三级久久| 久久久精品性| 久久精品亚洲一区二区三区浴池| 亚洲免费视频成人| 欧美在线地址| 亚洲国产一区在线观看| 鲁鲁狠狠狠7777一区二区| 欧美激情一区| 免费欧美在线视频| 久久精品人人做人人综合| 亚洲欧美日韩一区| 亚洲淫片在线视频| 亚洲精品中文字幕在线| 亚洲欧洲免费视频| 欧美中文在线免费| 亚洲欧美日韩一区二区| 艳妇臀荡乳欲伦亚洲一区| 欧美在线视频不卡| 亚洲素人一区二区| 亚洲最黄网站| 午夜精品福利在线观看| 一本色道久久精品| 1000部精品久久久久久久久| 欧美欧美在线| 欧美诱惑福利视频| 亚洲国产综合在线| 亚洲一区亚洲| 先锋影音国产精品| 久久久午夜视频| 韩国一区电影| 欧美二区乱c少妇| 狂野欧美一区| 国产精品超碰97尤物18| 国产精品久久久久久久久久免费| 欧美日韩中文字幕精品| 99综合在线| 欧美风情在线| 国产亚洲欧洲| 一区二区三区欧美激情| 久久免费偷拍视频| 亚洲调教视频在线观看| 欧美国产日韩一二三区| 黄色成人在线网站| 欧美一区2区三区4区公司二百| 亚洲国产精品v| 亚洲欧美成人| 欧美午夜寂寞影院| 在线视频免费在线观看一区二区| 免费亚洲一区| 久久久国产一区二区三区| 国产精品视频在线观看| 亚洲午夜视频| 一区二区欧美在线| 欧美私人啪啪vps| 一区二区三区久久网| 亚洲日本成人在线观看| 欧美777四色影视在线| 亚洲成人自拍视频| 欧美成人激情视频免费观看| 欧美一区二区三区成人| 国产精品久久激情| 亚洲男同1069视频| 中文国产亚洲喷潮| 国产精品三级久久久久久电影| 亚洲一区二区三区乱码aⅴ| 日韩天堂在线观看| 国产精品久久久久久久久久免费 | 欧美三级午夜理伦三级中文幕| 一区二区三区在线视频观看| 看欧美日韩国产| 久久影院亚洲| 99视频国产精品免费观看| 亚洲美女中文字幕| 欧美日韩国产免费| 亚洲欧美日韩一区二区三区在线| 亚洲视频电影图片偷拍一区| 国产精品视频久久久| 久久久99国产精品免费| 久久久久久久一区二区| 亚洲国产91精品在线观看| 欧美韩国一区| 欧美精品综合| 欧美一区中文字幕| 一区二区三区视频免费在线观看| 亚洲一二三区在线观看| 亚洲一区日韩在线| 樱桃视频在线观看一区| 亚洲国产一区二区三区高清 | 国产日韩欧美精品一区| 亚洲专区在线视频| 久久精品官网| 亚洲性图久久| 久久精品国产亚洲aⅴ| 亚洲精品综合| 99视频国产精品免费观看| 国产精品视频一二| 亚洲高清视频一区二区| 国产精品亚洲综合久久| 欧美激情国产精品| 国产精品美女久久| 亚洲黄色有码视频| 激情国产一区二区| 亚洲一区二区三区涩| 亚洲精品国产精品国自产观看浪潮| 亚洲午夜精品久久久久久浪潮 | 国产精品久久久久久久浪潮网站| 久久精品亚洲热| 欧美日韩网址| 亚洲第一精品福利| 国产综合香蕉五月婷在线| 亚洲人成网站在线播| 一区二区三区在线免费视频| 亚洲无线一线二线三线区别av| 亚洲高清在线视频| 欧美一区二区精美| 午夜精品一区二区在线观看| 欧美高清在线视频| 免费不卡亚洲欧美| 国产一级揄自揄精品视频| 中文久久乱码一区二区| 一本色道久久综合亚洲精品不卡 | 国内视频一区| 亚洲无限乱码一二三四麻| 亚洲视频axxx| 欧美日韩妖精视频| 亚洲精品资源| 一本久久知道综合久久| 欧美激情国产日韩精品一区18| 免费在线亚洲| 亚洲国产精品久久91精品| 久久久女女女女999久久| 久久综合狠狠综合久久综合88| 国产午夜亚洲精品不卡| 先锋影音久久久| 久久福利一区| 国产日韩精品视频一区二区三区| 国产精品99久久久久久久vr | 亚洲福利在线视频| 亚洲国产裸拍裸体视频在线观看乱了中文| 先锋影音久久久| 久久夜色精品国产欧美乱极品| 国产嫩草影院久久久久 | 欧美性jizz18性欧美| 一区二区三区久久网| 欧美成人小视频| 亚洲成色777777女色窝| 最新日韩精品| 欧美另类一区二区三区| 99国产精品99久久久久久粉嫩| 一本久道久久综合狠狠爱| 国产精品国产成人国产三级| 一区二区欧美国产| 久久精品一区二区| 亚洲国产天堂网精品网站| 欧美电影美腿模特1979在线看| 亚洲国产天堂久久国产91| 一区二区三区久久精品| 国产精品毛片a∨一区二区三区|国| 午夜精品久久久久久久99热浪潮 | aa国产精品| 午夜精品久久久久久| 国产偷国产偷亚洲高清97cao| 久久久午夜精品| 亚洲精品一区二区三区99| 亚洲一区在线播放| 国内精品久久久久久久果冻传媒 | 在线免费观看一区二区三区| 免费在线观看精品| 亚洲精品乱码| 久久成人精品| 亚洲精品乱码久久久久久黑人 | 另类图片国产| 日韩视频三区| 久久男人av资源网站| 亚洲精品一级| 国产日本欧美一区二区三区在线 | 欧美区日韩区| 午夜视频在线观看一区| 欧美激情视频一区二区三区免费 | 一区二区三区精品视频| 国内精品久久久久久久影视蜜臀 | 欧美亚洲日本网站| 亚洲激情在线观看| 国产精品视频yy9099| 欧美mv日韩mv国产网站| 香蕉成人久久| 日韩视频免费看| 免费在线观看一区二区| 亚洲免费人成在线视频观看| 亚洲国产二区| 激情综合自拍| 国产精品热久久久久夜色精品三区 | 亚洲视频在线播放| 伊大人香蕉综合8在线视| 欧美日韩精品伦理作品在线免费观看| 久久av在线| 亚洲网址在线| 亚洲毛片一区二区| 亚洲国产成人久久|