青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

天下

記錄修行的印記

AscII,Unicode,utf-8 utf-16,utf-32,BOM 的解說(三)

基本知識

介紹Unicode之前,首先要講解一些基礎(chǔ)知識。雖然跟Unicode沒有直接的關(guān)系,但想弄明白Unicode,沒這些還真不行。

字節(jié)和字符的區(qū)別

咦,字節(jié)和字符能有什么區(qū)別啊?不都是一樣的嗎?完全正確,但只是在古老的DOS時代。當Unicode出現(xiàn)后,字節(jié)和字符就不一樣了。

字節(jié)(octet)是一個八位的存儲單元,取值范圍一定是0~255。而字符(character,或者word)為語言意義上的符號,范圍就不一定了。例如在UCS-2中定義的字符范圍為0~65535,它的一個字符占用兩個字節(jié)。

Big Endian和Little Endian

上面提到了一個字符可能占用多個字節(jié),那么這多個字節(jié)在計算機中如何存儲呢?比如字符0xabcd,它的存儲格式到底是 AB CD,還是 CD AB 呢?

實際上兩者都有可能,并分別有不同的名字。如果存儲為 AB CD,則稱為Big Endian;如果存儲為 CD AB,則稱為Little Endian。

具體來說,以下這種存儲格式為Big Endian,因為值(0xabcd)的高位(0xab)存儲在前面:

地址
 值
 
0x00000000
 AB
 
0x00000001
 CD
 

相反,以下這種存儲格式為Little Endian:

地址
 值
 
0x00000000
 CD
 
0x00000001
 AB
 

UCS-2和UCS-4

Unicode是為整合全世界的所有語言文字而誕生的。任何文字在Unicode中都對應(yīng)一個值,這個值稱為代碼點(code point)。代碼點的值通常寫成 U+ABCD 的格式。而文字和代碼點之間的對應(yīng)關(guān)系就是UCS-2(Universal Character Set coded in 2 octets)。顧名思義,UCS-2是用兩個字節(jié)來表示代碼點,其取值范圍為 U+0000~U+FFFF。

為了能表示更多的文字,人們又提出了UCS-4,即用四個字節(jié)表示代碼點。它的范圍為 U+00000000~U+7FFFFFFF,其中 U+00000000~U+0000FFFF和UCS-2是一樣的。

要注意,UCS-2和UCS-4只規(guī)定了代碼點和文字之間的對應(yīng)關(guān)系,并沒有規(guī)定代碼點在計算機中如何存儲。規(guī)定存儲方式的稱為UTF(Unicode Transformation Format),其中應(yīng)用較多的就是UTF-16和UTF-8了。

UTF-16和UTF-32

UTF-16

UTF-16由 RFC2781規(guī)定,它使用兩個字節(jié)來表示一個代碼點。

不難猜到,UTF-16是完全對應(yīng)于UCS-2的,即把UCS-2規(guī)定的代碼點通過Big Endian或Little Endian方式直接保存下來。UTF-16包括三種:UTF-16,UTF-16BE(Big Endian),UTF-16LE(Little Endian)。

UTF-16BE和UTF-16LE不難理解,而UTF-16就需要通過在文件開頭以名為BOM(Byte Order Mark)的字符來表明文件是Big Endian還是Little Endian。BOM為U+FEFF這個字符。

其實BOM是個小聰明的想法。由于UCS-2沒有定義U+FFFE,因此只要出現(xiàn) FF FE 或者 FE FF 這樣的字節(jié)序列,就可以認為它是U+FEFF,并且可以判斷出是Big Endian還是Little Endian。

舉個例子。"ABC"這三個字符用各種方式編碼后的結(jié)果如下:

UTF-16BE
 00 41 00 42 00 43
 
UTF-16LE
 41 00 42 00 43 00
 
UTF-16(Big Endian)
 FE FF 00 41 00 42 00 43
 
UTF-16(Little Endian)
 FF FE 41 00 42 00 43 00
 
UTF-16(不帶BOM)
 00 41 00 42 00 43
 

Windows平臺下默認的Unicode編碼為Little Endian的UTF-16(即上述的 FF FE 41 00 42 00 43 00)。你可以打開記事本,寫上ABC,然后保存,再用二進制編輯器看看它的編碼結(jié)果

 

另外,UTF-16還能表示一部分的UCS-4代碼點——U+10000~U+10FFFF。表示算法比較復(fù)雜,簡單說明如下:

從代碼點U中減去0x10000,得到U'。這樣U+10000~U+10FFFF就變成了 0x00000~0xFFFFF。
用20位二進制數(shù)表示U'。 U'=yyyyyyyyyyxxxxxxxxxx
將前10位和后10位用W1和W2表示,W1=110110yyyyyyyyyy,W2=110111xxxxxxxxxx,則 W1 = D800~DBFF,W2 = DC00~DFFF。
例如,U+12345表示為 D8 08 DF 45(UTF-16BE),或者08 D8 45 DF(UTF-16LE)。

但是由于這種算法的存在,造成UCS-2中的 U+D800~U+DFFF 變成了無定義的字符。

UTF-32

UTF-32用四個字節(jié)表示代碼點,這樣就可以完全表示UCS-4的所有代碼點,而無需像UTF-16那樣使用復(fù)雜的算法。與UTF-16類似,UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三種編碼,UTF-32也同樣需要BOM字符。僅用'ABC'舉例:

UTF-32BE
 00 00 00 41 00 00 00 42 00 00 00 43
 
UTF-32LE
 41 00 00 00 42 00 00 00 43 00 00 00
 
UTF-32(Big Endian)
 00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43
 
UTF-32(Little Endian)
 FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00
 
UTF-32(不帶BOM)
 00 00 00 41 00 00 00 42 00 00 00 43
 

UTF-8

UTF-16和UTF-32的一個缺點就是它們固定使用兩個或四個字節(jié),這樣在表示純ASCII文件時會有很多00字節(jié),造成浪費。而RFC3629定義的UTF-8則解決了這個問題。

UTF-8用1~4個字節(jié)來表示代碼點。表示方式如下:

UCS-2 (UCS-4)
 位序列
 第一字節(jié)
 第二字節(jié)
 第三字節(jié)
 第四字節(jié)
 
U+0000 .. U+007F
 00000000-0xxxxxxx
 0xxxxxxx
  
  
  
 
U+0080 .. U+07FF
 00000xxx-xxyyyyyy
 110xxxxx
 10yyyyyy
  
  
 
U+0800 .. U+FFFF
 xxxxyyyy-yyzzzzzz
 1110xxxx
 10yyyyyy
 10zzzzzz
  
 
U+10000..U+1FFFFF
 00000000-000wwwxx-

xxxxyyyy-yyzzzzzzz
 11110www
 10xxxxxx
 10yyyyyy
 10zzzzzz
 

可見,ASCII字符(U+0000~U+007F)部分完全使用一個字節(jié),避免了存儲空間的浪費。而且UTF-8不再需要BOM字節(jié)。

另外,從上表中可以看出,單字節(jié)編碼的第一字節(jié)為[00-7F],雙字節(jié)編碼的第一字節(jié)為[C2-DF],三字節(jié)編碼的第一字節(jié)為[E0-EF]。這樣只要看到第一個字節(jié)的范圍就可以知道編碼的字節(jié)數(shù)。這樣也可以大大簡化算法。

 

本文來自CSDN博客,轉(zhuǎn)載請標明出處:http://blog.csdn.net/fan158/archive/2009/01/16/3796857.aspx

posted on 2010-10-25 11:02 天下 閱讀(526) 評論(0)  編輯 收藏 引用


只有注冊用戶登錄后才能發(fā)表評論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


<2015年12月>
293012345
6789101112
13141516171819
20212223242526
272829303112
3456789

導(dǎo)航

統(tǒng)計

常用鏈接

留言簿(4)

隨筆分類(378)

隨筆檔案(329)

鏈接

最新隨筆

搜索

最新評論

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美黑人国产人伦爽爽爽| 欧美大秀在线观看| 欧美精品videossex性护士| 久久一区二区三区国产精品| 欧美日韩国产一级| 一区二区欧美国产| 亚洲欧美精品在线| 国产欧美午夜| 欧美一级日韩一级| 嫩草影视亚洲| 亚洲国产精品女人久久久| 久久久久9999亚洲精品| 久久只精品国产| 亚洲免费视频中文字幕| 国产麻豆综合| 欧美在线视频二区| 欧美激情偷拍| 美女免费视频一区| 亚洲一区二区三区四区五区午夜 | 午夜精品剧场| 免费视频一区| 国产一区二区三区视频在线观看 | 欧美激情a∨在线视频播放| 亚洲精品之草原avav久久| 国产精品亚洲综合一区在线观看| 国产精品99久久久久久久久久久久 | 女仆av观看一区| 亚洲性线免费观看视频成熟| 欧美国产日韩xxxxx| 欧美三级网页| 欧美高清视频一区二区| 久久精品一级爱片| 亚洲一区二区三区视频| 国产日韩欧美综合精品| 欧美1区2区视频| 亚洲综合精品| 欧美日韩免费观看一区=区三区| 欧美第十八页| 亚洲精品在线二区| 欧美日韩理论| 一区二区黄色| 免费高清在线一区| 亚洲中午字幕| 亚洲一区二区三区在线看| 国产精品成人播放| 欧美中文字幕视频在线观看| 久久成人免费电影| 狠狠色狠狠色综合日日小说| 欧美高清在线视频| 亚洲高清在线精品| 久久一区二区三区国产精品 | 一本色道久久综合精品竹菊 | 国产精品久久999| 久久精品首页| 久久精品国产v日韩v亚洲| 一区二区三区四区精品| 激情综合视频| 亚洲激情国产| 国产精品久久久久久亚洲调教| 嫩草国产精品入口| 蜜桃av一区| 激情婷婷久久| 在线观看欧美日韩国产| 狠狠色丁香婷婷综合| 国内成+人亚洲| 国一区二区在线观看| 狠久久av成人天堂| 亚洲国产黄色片| 日韩午夜在线| 国产精品久久久久久久久免费樱桃| 欧美成人精品激情在线观看| 欧美一站二站| 亚洲免费在线视频一区 二区| 一区二区三区欧美成人| 亚洲小说欧美另类婷婷| 欧美在线视频免费| 久久综合中文色婷婷| 亚洲专区欧美专区| 欧美黑人在线播放| 午夜影视日本亚洲欧洲精品| 国产欧美一级| 极品裸体白嫩激情啪啪国产精品| 国产九区一区在线| 亚洲欧洲一区二区天堂久久| 在线视频精品| 老司机免费视频久久| 欧美成人精品在线观看| 欧美极品aⅴ影院| 国产精品夜色7777狼人| 国产一区二区三区久久 | 国产一区二区高清| 亚洲黄色在线| 性欧美8khd高清极品| 亚洲第一综合天堂另类专| 亚洲美女诱惑| 一区二区三区国产| 久久人人爽国产| 亚洲毛片av在线| 久久久久久久激情视频| 欧美日韩一区二区免费视频| 国内精品久久久久久| 日韩系列在线| 美女视频黄 久久| 一区二区久久久久| 老鸭窝毛片一区二区三区| 国产精品美女一区二区| 亚洲激情图片小说视频| 今天的高清视频免费播放成人| 亚洲福利视频一区| 美女爽到呻吟久久久久| 亚洲欧美成人一区二区在线电影| 亚洲黄色毛片| 久久综合九色99| 好吊日精品视频| 欧美在线网站| 羞羞色国产精品| 国产精品免费福利| 亚洲一区尤物| 亚洲欧美视频一区| 国产精品日韩在线| 亚洲欧美日本国产有色| 一本久道久久久| 欧美日韩精品免费看| 亚洲美女中文字幕| 亚洲国产精品va| 免费一级欧美片在线观看| 亚洲欧美美女| 亚洲欧洲99久久| 国产精品第一区| 新狼窝色av性久久久久久| 亚洲视频高清| 国产精品久久久久久久久久妞妞 | 一区二区三区黄色| 午夜精品影院在线观看| 亚洲一区影音先锋| 国产日韩成人精品| 久久久人人人| 免费在线一区二区| 亚洲看片网站| 一本色道久久综合狠狠躁的推荐| 欧美视频在线观看免费| 亚洲一区www| 亚洲欧美制服中文字幕| 狠狠入ady亚洲精品| 美女啪啪无遮挡免费久久网站| 欧美mv日韩mv国产网站| 亚洲免费观看| 亚洲女同在线| 亚洲国产精品日韩| 日韩午夜激情av| 久久成人在线| 国产亚洲欧美日韩日本| 一区国产精品| 久久欧美肥婆一二区| 美女亚洲精品| 欧美一区二区三区免费视| 久久久精品tv| 日韩一区二区久久| 亚洲淫片在线视频| 亚洲国产精品成人| 亚洲精品小视频| 国产亚洲一级| 99国产精品久久久久久久成人热| 国产欧美日韩精品专区| 亚洲二区视频| 亚洲娇小video精品| 国产模特精品视频久久久久 | 亚洲免费视频网站| 欧美一区二区三区免费观看视频 | 午夜精品美女久久久久av福利| 在线观看欧美| 午夜亚洲视频| 亚洲一区二区在线看| 久久精品国产免费观看| 在线综合视频| 免费不卡在线观看av| 久久国产视频网站| 欧美午夜三级| 亚洲国产美女| 亚洲国产精选| 亚洲欧美成人一区二区三区| 在线亚洲高清视频| 欧美成人综合一区| 欧美专区亚洲专区| 欧美一区二区三区四区在线| 欧美激情片在线观看| 黄网站免费久久| 亚洲综合欧美日韩| 亚洲欧美日韩一区在线| 欧美成人精品h版在线观看| 快播亚洲色图| 国产在线观看一区| 久久久水蜜桃| 免费日韩一区二区| 亚洲精品影视在线观看| 一区二区三区久久网| 国产精品视频xxx| 久久九九有精品国产23| 欧美色中文字幕| 亚洲一区尤物|