可冰

冰,是沉睡著的水......

C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理 ::

37 隨筆 :: 5 文章 :: 94 評論 :: 0 Trackbacks

<

2025年11月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

公告

My blog is worth ￥0.00.

品味孤獨......

　冰,是沉睡著的水.
　而我,卻是內部含有未結冰之水的冰.外表看來似乎冰冷,而內心卻猶如水一般,柔和.

這樣的一塊冰,
　　似睡非睡,似醒非醒......
　　似強非強,似弱非弱......
　　似剛非剛,似柔非柔......

劍如飛心如水
也隔不斷相思淚
歌不悔心還醉
究竟是為誰

愛若苦心無顧
誰拿愛情一生賭
翅斷了碟兒飛了
化作一世深緣故

黃金色的樹林里分出兩條路,
可惜我們不能同時去涉足,
但我們卻選擇了,
人跡罕至的那一條,
這從此決定了
我們的一生.

常用鏈接

留言簿(7)

隨筆分類(18)

隨筆檔案(37)

文章分類(5)

文章檔案(5)

相冊

inPost
kb

朋友的博客

收藏

C++的羅浮宮-劉未鵬 (rss)
王垠的個人空間 (rss)
原來的: http://learn.tsinghua.edu.cn/homepage/2001315450/

搜索

積分與排名

積分 - 66981
排名 - 348

閱讀排行榜

評論排行榜

UTF-8 編碼格式總結

[以下只是個人的總結,如若有誤,懇請指正,謝謝!]
下列字節串用來表示一個字符. 用到哪個串取決于該字符在 Unicode 中的序號.

U+00000000 - U+0000007F:	0 xxxxxxx	0x - 7x
U+00000080 - U+000007FF:	110 xxxxx 10 xxxxxx	Cx 8x - Dx Bx
U+00000800 - U+0000FFFF:	1110 xxxx 10 xxxxxx 10 xxxxxx	Ex 8x 8x - Ex Bx Bx
U+00010000 - U+001FFFFF:	11110 xxx 10 xxxxxx 10 xxxxxx 10 xxxxxx	F0 8x 8x 8x - F7 Bx Bx Bx	很少用
U+00200000 - U+03FFFFFF:	111110 xx 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx	F8 8x 8x 8x 8x - FB Bx Bx Bx Bx
U+04000000 - U+7FFFFFFF:	1111110 x 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx	FC 8x 8x 8x 8x 8x - FD Bx Bx Bx Bx Bx

* FE FF從未在編碼中出現過.
* 除第一個字節外,其余字節都在 0x80 到 0xBF范圍內,每個字符的起始位置用0xC0-0xD0,0xE0,0xF0等可以確定(驗證前四位或八位),不在這一范圍的即為單字節字符.凡是以0x80 到 0xBF開頭的都是后繼字節,計數時都要跳過.
* Unicode是一種編碼表,只將字符指定給某一數字(Unicode做得還要更多一些,比如提供比較及顯示等很多算法等等);
而UTF-8是編碼方式,是定義如何表示并存儲指定編碼的格式.
* UTF-8編碼轉換為Unicode編碼: 將所有標志位去除,剩余位數若不足則在高位補零,湊足32位即可.
* Unicode編碼轉換為UTF-8編碼: 從低位開始,每取6位補兩個位10,不足6位(不算高位的0)則按字節長度補相應的字符標志位0、110、1110等

posted on 2005-09-19 20:03 可冰閱讀(10392) 評論(3) 編輯收藏引用所屬分類: UTF-8

BOM是Byte Order Mark，在文件頭部，標明文件格式。

如果文件頭3個字節是EF BB BF，表明這個文件是UTF-8格式
頭2個字節是FE FF表明這個文件是UTF-16，Big-Endian
FF FE表明這個文件是UTF-16，Little-Endian

把它們作為BOM，應該也是因為沒有出現在編碼中。回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。


相關文章: 評價一下UTF-8與UNICODE相互轉換的代碼構思UTF-8解碼模塊 std::wfstream是怎么支持寬字符的? "這是一個UTF-8格式的文檔!"的幾種不同編碼表示 UTF-8 編碼格式總結 UTF types UTF serializations

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

可冰

公告