• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            可冰

            冰,是沉睡著的水......

              C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
              37 隨筆 :: 5 文章 :: 94 評論 :: 0 Trackbacks
            [以下只是個人的總結,如若有誤,懇請指正,謝謝!]
            下列字節串用來表示一個字符. 用到哪個串取決于該字符在 Unicode 中的序號.
            U+00000000 - U+0000007F: 0 xxxxxxx 0x - 7x  
            U+00000080 - U+000007FF: 110 xxxxx 10 xxxxxx Cx 8x - Dx Bx  
            U+00000800 - U+0000FFFF: 1110 xxxx 10 xxxxxx 10 xxxxxx Ex 8x 8x - Ex Bx Bx  
            U+00010000 - U+001FFFFF: 11110 xxx 10 xxxxxx 10 xxxxxx 10 xxxxxx F0 8x 8x 8x - F7 Bx Bx Bx 很少用
            U+00200000 - U+03FFFFFF: 111110 xx 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx F8 8x 8x 8x 8x - FB Bx Bx Bx Bx
            U+04000000 - U+7FFFFFFF: 1111110 x 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx FC 8x 8x 8x 8x 8x - FD Bx Bx Bx Bx Bx


            * FE FF從未在編碼中出現過.
            * 除第一個字節外,其余字節都在 0x80 到 0xBF范圍內,每個字符的起始位置用0xC0-0xD0,0xE0,0xF0等可以確定(驗證前四位或八位),不在這一范圍的即為單字節字符.凡是以0x80 到 0xBF開頭的都是后繼字節,計數時都要跳過.
            * Unicode是一種編碼表,只將字符指定給某一數字(Unicode做得還要更多一些,比如提供比較及顯示等很多算法等等);
            而UTF-8是編碼方式,是定義如何表示并存儲指定編碼的格式.
            * UTF-8編碼轉換為Unicode編碼: 將所有標志位去除,剩余位數若不足則在高位補零,湊足32位即可.
            * Unicode編碼轉換為UTF-8編碼: 從低位開始,每取6位補兩個位10,不足6位(不算高位的0)則按字節長度補相應的字符標志位0、110、1110等

            posted on 2005-09-19 20:03 可冰 閱讀(10372) 評論(3)  編輯 收藏 引用 所屬分類: UTF-8

            評論

            # re: UTF-8 編碼格式總結 2005-09-19 20:11 cpunion
            FE FF是utf-16-be文件編碼的BOM。。。  回復  更多評論
              

            # re: UTF-8 編碼格式總結 2005-09-19 20:31 可冰
            不懂BOM是什么意思?
            在UTF-8中它們沒出現過,應該是正確的吧.  回復  更多評論
              

            # re: UTF-8 編碼格式總結 2005-09-19 20:54 cpunion
            BOM是Byte Order Mark,在文件頭部,標明文件格式。

            如果文件頭3個字節是EF BB BF,表明這個文件是UTF-8格式
            頭2個字節是FE FF表明這個文件是UTF-16,Big-Endian
            FF FE表明這個文件是UTF-16,Little-Endian

            把它們作為BOM,應該也是因為沒有出現在編碼中。  回復  更多評論
              

            成人亚洲欧美久久久久| 久久久久国产精品嫩草影院| 嫩草伊人久久精品少妇AV| 国产亚洲精品久久久久秋霞| 漂亮人妻被黑人久久精品| 亚洲乱亚洲乱淫久久| 中文字幕精品久久| 久久精品夜夜夜夜夜久久| 99久久精品国产一区二区蜜芽| 久久人人超碰精品CAOPOREN | 色综合久久久久无码专区| 97久久香蕉国产线看观看| 色播久久人人爽人人爽人人片aV| 久久久久99精品成人片欧美| 九九热久久免费视频| 久久精品www人人爽人人| 亚洲精品视频久久久| 品成人欧美大片久久国产欧美...| 一本色道久久99一综合| 欧美一级久久久久久久大片 | 精品久久久久久无码中文野结衣| 无码伊人66久久大杳蕉网站谷歌| 久久久久亚洲AV成人网人人网站| 久久ww精品w免费人成| 久久人人爽人人爽人人片AV高清 | 久久久噜噜噜久久中文福利| 精品久久久久久国产牛牛app| 久久久久99精品成人片欧美| 久久久噜噜噜久久中文字幕色伊伊 | 久久se精品一区二区| 亚洲欧美日韩中文久久| 亚洲伊人久久成综合人影院 | 久久亚洲精品无码VA大香大香| 国产成人精品久久亚洲高清不卡 | 久久人妻少妇嫩草AV无码专区| 亚洲国产天堂久久久久久 | 综合久久一区二区三区| 久久精品国产精品亜洲毛片| 99久久国产综合精品成人影院| 久久婷婷国产麻豆91天堂| 久久精品成人免费看|