woaidongmao

文章均收錄自他人博客，但不喜標題前加-[轉(zhuǎn)貼]，因其丑陋，見諒！~

隨筆 - 1469, 文章 - 0, 評論 - 661, 引用 - 0

數(shù)據(jù)加載中……

維基百科----UTF-16

維基百科，自由的百科全書

跳轉(zhuǎn)到: 導航, 搜尋

UTF-16是Unicode的其中一個使用方式。 UTF是 Unicode/UCS Transformation Format，即把Unicode轉(zhuǎn)做某種格式的意思。

它定義于ISO/IEC 10646-1的附錄Q，而RFC2781也定義了相似的做法。

在Unicode基本多文種平面定義的字符（無論是拉丁字母、漢字或其它文字或符號），一律使用2字節(jié)儲存。而在輔助平面定義的字符，會以代理對（surrogate pair）的形式，以兩個2字節(jié)的值來儲存。

UTF-16比起UTF-8，好處在于大部分字符都以固定長度的字節(jié) (2字節(jié)) 儲存，但UTF-16卻無法兼容于ASCII編碼。

[編輯] UTF-16的編碼模式

UTF-16的大尾序和小尾序儲存形式都在用。一般來說，以Macintosh制作或儲存的文字使用大尾序格式，以Microsoft或Linux制作或儲存的文字使用小尾序格式。

為了弄清楚UTF-16文件的大小尾序，在UTF-16文件的開首，都會放置一個U+FEFF字符作為Byte Order Mark (UTF-16LE 以 FF FE 代表，UTF-16BE 以 FE FF 代表)，以顯示這個文本文件是以UTF-16編碼，其中U+FEFF字符在UNICODE中代表的意義是ZERO WIDTH NO-BREAK SPACE，顧名思義，它是個沒有寬度也沒有斷字的空白。

以下的例子有三個字符：「朱」(U+6731)、半角逗號 (U+002C)、「聿」(U+807F)。

使用 UTF-16 編碼的例子
編碼名稱	編碼次序	編碼
編碼名稱	編碼次序	BOM	"朱"	","	"聿"
UTF-16LE	小尾序		31 67	2C 00	7F 80
UTF-16BE	大尾序		67 31	00 2C	80 7F
UTF-16	小尾序，包含BOM	FF FE	31 67	2C 00	7F 80
UTF-16	大尾序，包含BOM	FE FF	67 31	00 2C	80 7F

[編輯] UTF-16 與 UCS-2 的關(guān)系

UTF-16可看成是UCS-2的父集。在沒有輔助平面字符前，UTF-16與UCS-2所指的是同一的意思。但當引入輔助平面字符后，就只稱為UTF-16了。現(xiàn)在若有軟件聲稱自己支持UCS-2編碼，那其實是暗指它不能支持輔助平面字符的委婉語。

posted on 2008-11-07 22:31 肥仔閱讀(598) 評論(0) 編輯收藏引用所屬分類: 字符編碼

只有注冊用戶登錄后才能發(fā)表評論。


相關(guān)文章: 字符編碼筆記：ASCII，Unicode和UTF-8 寫入UTF-16文件的時候，不要忘記在文件頭添加BOM 判斷字符串是否UTF8編碼 EUC 怎樣學習使用libiconv庫 unicode utf-8 gb18030 gb2312 gbk各種編碼對比 GB18030編碼研究以及GBK、GB18030與Unicode的映射 GBK, UCS和UTF8相互轉(zhuǎn)換 C程序?qū)崿F(xiàn)漢字內(nèi)碼與GB碼 C++的三種字符編碼方式

網(wǎng)站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

woaidongmao

維基百科----UTF-16

維基百科，自由的百科全書

[編輯] UTF-16的編碼模式

[編輯] UTF-16 與 UCS-2 的關(guān)系

導航

常用鏈接

留言簿(10)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜