• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            天下

            記錄修行的印記

            AscII,Unicode,utf-8 utf-16,utf-32,BOM 的解說(三)

            基本知識(shí)

            介紹Unicode之前,首先要講解一些基礎(chǔ)知識(shí)。雖然跟Unicode沒有直接的關(guān)系,但想弄明白Unicode,沒這些還真不行。

            字節(jié)和字符的區(qū)別

            咦,字節(jié)和字符能有什么區(qū)別啊?不都是一樣的嗎?完全正確,但只是在古老的DOS時(shí)代。當(dāng)Unicode出現(xiàn)后,字節(jié)和字符就不一樣了。

            字節(jié)(octet)是一個(gè)八位的存儲(chǔ)單元,取值范圍一定是0~255。而字符(character,或者word)為語言意義上的符號(hào),范圍就不一定了。例如在UCS-2中定義的字符范圍為0~65535,它的一個(gè)字符占用兩個(gè)字節(jié)。

            Big Endian和Little Endian

            上面提到了一個(gè)字符可能占用多個(gè)字節(jié),那么這多個(gè)字節(jié)在計(jì)算機(jī)中如何存儲(chǔ)呢?比如字符0xabcd,它的存儲(chǔ)格式到底是 AB CD,還是 CD AB 呢?

            實(shí)際上兩者都有可能,并分別有不同的名字。如果存儲(chǔ)為 AB CD,則稱為Big Endian;如果存儲(chǔ)為 CD AB,則稱為Little Endian。

            具體來說,以下這種存儲(chǔ)格式為Big Endian,因?yàn)橹?0xabcd)的高位(0xab)存儲(chǔ)在前面:

            地址
             值
             
            0x00000000
             AB
             
            0x00000001
             CD
             

            相反,以下這種存儲(chǔ)格式為Little Endian:

            地址
             值
             
            0x00000000
             CD
             
            0x00000001
             AB
             

            UCS-2和UCS-4

            Unicode是為整合全世界的所有語言文字而誕生的。任何文字在Unicode中都對(duì)應(yīng)一個(gè)值,這個(gè)值稱為代碼點(diǎn)(code point)。代碼點(diǎn)的值通常寫成 U+ABCD 的格式。而文字和代碼點(diǎn)之間的對(duì)應(yīng)關(guān)系就是UCS-2(Universal Character Set coded in 2 octets)。顧名思義,UCS-2是用兩個(gè)字節(jié)來表示代碼點(diǎn),其取值范圍為 U+0000~U+FFFF。

            為了能表示更多的文字,人們又提出了UCS-4,即用四個(gè)字節(jié)表示代碼點(diǎn)。它的范圍為 U+00000000~U+7FFFFFFF,其中 U+00000000~U+0000FFFF和UCS-2是一樣的。

            要注意,UCS-2和UCS-4只規(guī)定了代碼點(diǎn)和文字之間的對(duì)應(yīng)關(guān)系,并沒有規(guī)定代碼點(diǎn)在計(jì)算機(jī)中如何存儲(chǔ)。規(guī)定存儲(chǔ)方式的稱為UTF(Unicode Transformation Format),其中應(yīng)用較多的就是UTF-16和UTF-8了。

            UTF-16和UTF-32

            UTF-16

            UTF-16由 RFC2781規(guī)定,它使用兩個(gè)字節(jié)來表示一個(gè)代碼點(diǎn)。

            不難猜到,UTF-16是完全對(duì)應(yīng)于UCS-2的,即把UCS-2規(guī)定的代碼點(diǎn)通過Big Endian或Little Endian方式直接保存下來。UTF-16包括三種:UTF-16,UTF-16BE(Big Endian),UTF-16LE(Little Endian)。

            UTF-16BE和UTF-16LE不難理解,而UTF-16就需要通過在文件開頭以名為BOM(Byte Order Mark)的字符來表明文件是Big Endian還是Little Endian。BOM為U+FEFF這個(gè)字符。

            其實(shí)BOM是個(gè)小聰明的想法。由于UCS-2沒有定義U+FFFE,因此只要出現(xiàn) FF FE 或者 FE FF 這樣的字節(jié)序列,就可以認(rèn)為它是U+FEFF,并且可以判斷出是Big Endian還是Little Endian。

            舉個(gè)例子。"ABC"這三個(gè)字符用各種方式編碼后的結(jié)果如下:

            UTF-16BE
             00 41 00 42 00 43
             
            UTF-16LE
             41 00 42 00 43 00
             
            UTF-16(Big Endian)
             FE FF 00 41 00 42 00 43
             
            UTF-16(Little Endian)
             FF FE 41 00 42 00 43 00
             
            UTF-16(不帶BOM)
             00 41 00 42 00 43
             

            Windows平臺(tái)下默認(rèn)的Unicode編碼為Little Endian的UTF-16(即上述的 FF FE 41 00 42 00 43 00)。你可以打開記事本,寫上ABC,然后保存,再用二進(jìn)制編輯器看看它的編碼結(jié)果

             

            另外,UTF-16還能表示一部分的UCS-4代碼點(diǎn)——U+10000~U+10FFFF。表示算法比較復(fù)雜,簡單說明如下:

            從代碼點(diǎn)U中減去0x10000,得到U'。這樣U+10000~U+10FFFF就變成了 0x00000~0xFFFFF。
            用20位二進(jìn)制數(shù)表示U'。 U'=yyyyyyyyyyxxxxxxxxxx
            將前10位和后10位用W1和W2表示,W1=110110yyyyyyyyyy,W2=110111xxxxxxxxxx,則 W1 = D800~DBFF,W2 = DC00~DFFF。
            例如,U+12345表示為 D8 08 DF 45(UTF-16BE),或者08 D8 45 DF(UTF-16LE)。

            但是由于這種算法的存在,造成UCS-2中的 U+D800~U+DFFF 變成了無定義的字符。

            UTF-32

            UTF-32用四個(gè)字節(jié)表示代碼點(diǎn),這樣就可以完全表示UCS-4的所有代碼點(diǎn),而無需像UTF-16那樣使用復(fù)雜的算法。與UTF-16類似,UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三種編碼,UTF-32也同樣需要BOM字符。僅用'ABC'舉例:

            UTF-32BE
             00 00 00 41 00 00 00 42 00 00 00 43
             
            UTF-32LE
             41 00 00 00 42 00 00 00 43 00 00 00
             
            UTF-32(Big Endian)
             00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43
             
            UTF-32(Little Endian)
             FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00
             
            UTF-32(不帶BOM)
             00 00 00 41 00 00 00 42 00 00 00 43
             

            UTF-8

            UTF-16和UTF-32的一個(gè)缺點(diǎn)就是它們固定使用兩個(gè)或四個(gè)字節(jié),這樣在表示純ASCII文件時(shí)會(huì)有很多00字節(jié),造成浪費(fèi)。而RFC3629定義的UTF-8則解決了這個(gè)問題。

            UTF-8用1~4個(gè)字節(jié)來表示代碼點(diǎn)。表示方式如下:

            UCS-2 (UCS-4)
             位序列
             第一字節(jié)
             第二字節(jié)
             第三字節(jié)
             第四字節(jié)
             
            U+0000 .. U+007F
             00000000-0xxxxxxx
             0xxxxxxx
              
              
              
             
            U+0080 .. U+07FF
             00000xxx-xxyyyyyy
             110xxxxx
             10yyyyyy
              
              
             
            U+0800 .. U+FFFF
             xxxxyyyy-yyzzzzzz
             1110xxxx
             10yyyyyy
             10zzzzzz
              
             
            U+10000..U+1FFFFF
             00000000-000wwwxx-

            xxxxyyyy-yyzzzzzzz
             11110www
             10xxxxxx
             10yyyyyy
             10zzzzzz
             

            可見,ASCII字符(U+0000~U+007F)部分完全使用一個(gè)字節(jié),避免了存儲(chǔ)空間的浪費(fèi)。而且UTF-8不再需要BOM字節(jié)。

            另外,從上表中可以看出,單字節(jié)編碼的第一字節(jié)為[00-7F],雙字節(jié)編碼的第一字節(jié)為[C2-DF],三字節(jié)編碼的第一字節(jié)為[E0-EF]。這樣只要看到第一個(gè)字節(jié)的范圍就可以知道編碼的字節(jié)數(shù)。這樣也可以大大簡化算法。

             

            本文來自CSDN博客,轉(zhuǎn)載請標(biāo)明出處:http://blog.csdn.net/fan158/archive/2009/01/16/3796857.aspx

            posted on 2010-10-25 11:02 天下 閱讀(520) 評(píng)論(0)  編輯 收藏 引用


            只有注冊用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


            <2011年2月>
            303112345
            6789101112
            13141516171819
            20212223242526
            272812345
            6789101112

            導(dǎo)航

            統(tǒng)計(jì)

            常用鏈接

            留言簿(4)

            隨筆分類(378)

            隨筆檔案(329)

            鏈接

            最新隨筆

            搜索

            最新評(píng)論

            久久久中文字幕日本| 欧美色综合久久久久久| 亚洲国产精品高清久久久| 中文字幕乱码久久午夜| 久久96国产精品久久久| 久久久久亚洲精品中文字幕 | 国产亚洲精品美女久久久| 97久久国产亚洲精品超碰热| 久久精品国产精品亚洲| 人妻精品久久久久中文字幕69 | 97久久天天综合色天天综合色hd| 91精品国产乱码久久久久久| 亚洲欧洲中文日韩久久AV乱码| 人妻久久久一区二区三区| 婷婷国产天堂久久综合五月| 色偷偷88888欧美精品久久久| 久久久久久久综合日本| 99久久国产热无码精品免费| 久久精品极品盛宴观看| 国产精品欧美亚洲韩国日本久久 | 色成年激情久久综合| 亚洲va国产va天堂va久久| 久久嫩草影院免费看夜色| 久久精品一区二区国产| 亚洲精品白浆高清久久久久久 | 久久国语露脸国产精品电影| 国产日韩久久久精品影院首页| 久久久久高潮毛片免费全部播放 | 久久精品国产亚洲AV无码麻豆| 国产精品久久久久免费a∨| 久久久久99精品成人片牛牛影视| 国产精品久久久福利| 国产精品毛片久久久久久久| 91精品国产91久久久久福利| 久久精品人人做人人爽电影蜜月| 少妇久久久久久久久久| 久久精品成人欧美大片| 亚洲av日韩精品久久久久久a| 亚洲伊人久久精品影院| 久久99国产乱子伦精品免费| 国内精品久久人妻互换|