青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

colorful

zc qq:1337220912

 

Unicode和UTF-8之間的轉換詳解

ps. 轉的,代碼上有錯誤的,沒仔細看,只看了下思路思想,很不錯,特別鄙視那種死咬人家錯誤不放的人,嗎的,誰寫代碼沒個錯誤,誰能代碼一寫出來就不用改不用來回推敲. 人家目的是向你介紹思想,思想你明白了不就行了.
=======================================================
最近在用VC++開發一個小工具,平時用慣了.NET,用起VC++最郁悶的就是字符串 處理。當然最最讓人難于琢磨的就是字符集,編碼之間的轉換。通過這幾天的研究,終于明白了Unicode和UTF-8之間編碼的區別。Unicode是一 個字符集,而UTF-8是Unicode的其中一種,Unicode是定長的都為雙字節,而UTF-8是可變的,對于漢字來說Unicode占有的字節比 UTF-8占用的字節少1個字節。Unicode為雙字節,而UTF-8中漢字占三個字節。
                       
網魂小兵 http://xdotnet.cnblogs.com
    UTF-8編碼字符理論上可以最多到6個字節長,然而16位BMP(
Basic Multilingual Plane)字符最多只用到3字節長。下面看一下UTF-8編碼表:

        U-00000000 - U-0000007F: 0xxxxxxx
        U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
        U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
        U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
        U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
        U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx


    xxx 的位置由字符編碼數的二進制表示的位填入, 越靠右的 x 具有越少的特殊意義,只用最短的那個足夠表達一個字符編碼數的多字節串。 注意在多字節串中, 第一個字節的開頭"1"的數目就是整個串中字節的數目。而第一行中以0開頭,是為了兼容ASCII編碼,為一個字節,第二行就為雙字節字符串,第三行為3 字節,如漢字就屬于這種,以此類推。(個人認為:其實我們可以簡單的把前面的1的個數看成字節數)
                         網魂小兵 http://xdotnet.cnblogs.com
    為了要將Unicode轉換為UTF-8,當然要知道他們的區別到底在什么地方。下面來看一下,在Unicode中的編碼是怎樣轉換成UTF-8的,在UTF-8中,如果一個字符的字節小于0x80(128)則為ASCII字符,占一個字節,可以不用轉換,因為UTF-8兼容ASCII編碼。假如在Unicode中漢字“你”的編碼為“u4F60”,把它轉換為二進制為100111101100000,然后按照UTF-8的方法進行轉換。可以將Unicode二進制從地位往高位取出二進制數字,每次取6位,如上述的二進制就可以分別取出為如下所示的格式,前面按格式填補,不足8位用0填補。

      
           unicode:  100111101100000                  4F60

           utf-8:    11100100,10111101,10100000       E4BDA0


    從上面就可以很直觀的看出Unicode到UTF-8之間的轉換,當然知道了UTF-8的格式后,就可以進行逆運算,就是按照格式把它在二進制中的相應位置上取出,然后在轉換就是所得到的Unicode字符了(這個運算可以通過“位移”來完成)。
                     
網魂小兵 http://xdotnet.cnblogs.com
    如上述的“你”的轉換,由于其值大于0x800小于0x10000,因此可以判斷為三字節存儲,則最高位需要向右移“12”位再根據三字節格式的最高位為 11100000(0xE0)求或(|)就可以得到最高位的值了。同理第二位則是右移“6”位,則還剩下最高位和第二位的二進制值,可以通過與 111111(0x3F)求按位于(&)操作,再和11000000(0x80)求或(|)。第三位就不用移位了,只要直接取最后六位(與 111111(ox3F)取&),在與11000000(0x80)求或(|)。OK了,轉換成功!在VC++中的代碼如下所示(Unicode到UTF-8的轉換)。

        1 const wchar_t pUnicode = L"";
        2 char utf8[3+1];
        3 memset(utf8,0,4);
        4 utf8[0= 0xE0|(pUnicode>>12);
        5 utf8[1= 0x80|((pUnicode>>6)&0x3F);
        6 utf8[2= 0x80|(pUnicode&0x3F);
        7 utf8[3= "\0";
        8 //char[4]就是UTF-8的字符“你”了。

    當然在UTF-8到Unicode的轉換也是通過移位等來完成的,就是把UTF-8那些格式相應的位置的二進制數給揪出來。在上述例子中“你”為三個字節,因此要每個字節進行處理,有高位到低位進行處理。在UTF-8中“你”為
11100100,10111101,10100000。從高位起即第一個字節11100100就是把其中的"0100"給取出來,這個很簡單只要和11111(0x1F)取與(&),由三字節可以得知最到位肯定位于12位之前,因為每次取六位。所以還要將得到的結果左移12位,最高位也就這樣完成了0100,000000,000000。而第二位則是要把“111101”給取出來,則只需將第二字節10111101 和111111(0x3F)取與(&)。在將所得到的結果左移6位與最高字節所得的結果取或(|),第二位就這樣完成了,得到的結果為 0100,111101,000000。以此類推最后一位直接與111111(0x3F)取與(&),再與前面所得的結果取或(|)即可得到結果 0100,111101,100000。OK,轉換成功!在VC++中的代碼如下所示(UTF-8Unicode的轉換)。

    1 //UTF-8格式的字符串
    2 const char* utf8 = "";
    3 wchar_t unicode;
    4 unicode = (utf8[0& 0x1F<< 12;
    5 unicode |= (utf8[1& 0x3F<< 6;
    6 unicode |= (utf8[2& 0x3F);
    7 //unicode is ok!
                            網魂小兵 http://xdotnet.cnblogs.com
    當然在編程過程中不可能只轉換一個字符,這里需要注意的是字符的長度一定要算清楚,不然會帶來...以上就是我這幾天研究的結果,至于Unicode的轉換為GB2312在MFC中Windows有自帶的API(WideCharToMultiByte)可以轉換。這樣也就能夠將UTF-8格式轉換為GB2312了,這里就不再贅述,如果大家有更好的方法希望指教。

posted on 2012-07-18 14:50 多彩人生 閱讀(191) 評論(0)  編輯 收藏 引用

導航

統計

常用鏈接

留言簿(3)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲精品美女91| 久久九九电影| 免费日韩视频| 亚洲欧美资源在线| 久久五月天婷婷| 蜜桃av一区二区三区| 一区二区三区欧美视频| 欧美专区中文字幕| 欧美一区二区视频观看视频| 久久另类ts人妖一区二区| 先锋影音国产精品| 欧美日韩一二区| 欧美激情中文字幕一区二区| 91久久久久| 欧美日韩精品三区| 欧美色图一区二区三区| 洋洋av久久久久久久一区| 久久综合伊人| 美脚丝袜一区二区三区在线观看| 欧美午夜精彩| 亚洲中字黄色| 久久九九99| 韩国一区二区三区在线观看| 欧美中文字幕在线| 午夜综合激情| 亚洲视频免费| 亚洲欧美日韩直播| 韩国av一区二区| 欧美激情亚洲综合一区| 亚洲视频网在线直播| 欧美日韩第一区| 欧美自拍偷拍午夜视频| 最新日韩精品| 免费在线欧美视频| 久久国产精品黑丝| 一区二区三区免费看| 伊人久久婷婷| 国产揄拍国内精品对白| 国产精品sss| 欧美精品在欧美一区二区少妇| 久久久91精品国产一区二区精品| 一本大道久久a久久精二百| 欧美不卡三区| 久久伊人免费视频| 久久久国产一区二区三区| 亚洲免费网站| 亚洲欧美日韩爽爽影院| 一本色道久久88亚洲综合88 | 久热精品视频在线观看| 久久成人这里只有精品| 久久久久国色av免费看影院| 欧美一区二区三区的| 99在线观看免费视频精品观看| 最新日韩精品| 亚洲一区在线看| 欧美一区二区观看视频| 欧美在线观看视频| 免费视频一区二区三区在线观看| 久久影院亚洲| 亚洲国产精品精华液网站| 亚洲精品久久久久久久久久久久久 | 欧美成人精品不卡视频在线观看| 久久精品国产精品亚洲| 欧美成人精品一区二区| 日韩天堂在线观看| 久久久高清一区二区三区| 欧美日韩免费观看一区三区| 国产美女精品视频免费观看| 1024日韩| 久久久久久尹人网香蕉| 亚洲三级国产| 久久精品国产综合| 欧美激情国产日韩| 久久高清国产| 欧美日韩国产精品一区| 亚洲三级网站| 午夜激情亚洲| 蜜臀av性久久久久蜜臀aⅴ| 久久免费视频在线观看| 国产欧美日韩综合一区在线播放 | 欧美在线三区| 性久久久久久| 欧美国产亚洲精品久久久8v| 中日韩视频在线观看| 亚洲一区二区三区午夜| 欧美日本二区| 亚洲国产日韩欧美在线99| 性欧美18~19sex高清播放| 欧美国产第二页| 欧美专区一区二区三区| 黄色成人av网站| 久久精彩免费视频| 一区二区三区成人| 欧美日韩国产一级片| 亚洲电影免费观看高清完整版在线观看 | 久久久久.com| 国产精品日韩在线播放| 亚洲精品视频免费观看| 欧美va亚洲va香蕉在线| 性伦欧美刺激片在线观看| 国产精品久久久久三级| 可以看av的网站久久看| 亚洲第一区中文99精品| 久久久福利视频| 久久久久国产精品www| 伊人久久成人| 亚洲激情在线播放| 欧美国产激情| 亚洲视频一区| 中文在线一区| 国产午夜亚洲精品不卡| 久久久久久电影| 午夜久久资源| 亚洲少妇中出一区| 性欧美暴力猛交69hd| 亚洲国产欧美一区二区三区丁香婷| 麻豆精品91| 欧美日韩另类国产亚洲欧美一级| 一区二区三区视频在线看 | 亚洲日本欧美| 精品福利av| 亚洲国产精品热久久| 国产精品高清网站| 免费成人在线视频网站| 欧美精品国产精品| 久久国产精品久久久久久电车| 农村妇女精品| 亚洲精一区二区三区| 亚洲欧美自拍偷拍| 国产精品99久久久久久白浆小说 | 亚洲人成毛片在线播放女女| 欧美sm极限捆绑bd| 欧美伊久线香蕉线新在线| 欧美高清视频一二三区| 久久99在线观看| 一区二区三区精品久久久| 国产啪精品视频| 亚洲另类黄色| a91a精品视频在线观看| 欧美日韩小视频| 亚洲美女av黄| av成人老司机| 欧美日韩成人精品| 日韩午夜黄色| 亚洲一区二区三区四区五区午夜| 欧美日本簧片| 99天天综合性| 国产欧美一区二区三区久久人妖| 国产精品久久久久一区二区三区 | 久热精品视频在线观看一区| 欧美日韩一二区| 亚洲精品黄网在线观看| 亚洲精品欧美专区| 欧美日本国产精品| 欧美成人免费大片| 亚洲综合另类| 国产欧美一级| 久久久久一区二区| 亚洲品质自拍| 久久久亚洲影院你懂的| 久久久最新网址| 亚洲欧美另类国产| 免费不卡在线观看av| 夜久久久久久| 国产一区二区三区在线观看视频 | 久久久国际精品| 99在线观看免费视频精品观看| 亚洲欧美一区二区视频| 国产一区二区高清不卡| 亚洲精品美女在线观看| 久久香蕉精品| 亚洲欧美三级在线| 亚洲精品免费电影| 欧美二区在线| 日韩午夜在线播放| 欧美成人精品h版在线观看| 亚洲一区美女视频在线观看免费| 亚洲夜间福利| 久久综合国产精品| 欧美亚洲一区| 国产日韩av一区二区| 欧美日韩国内| 美女日韩欧美| 久久亚洲图片| 久久全球大尺度高清视频| 亚洲欧美日产图| 亚洲视频免费在线观看| 香蕉乱码成人久久天堂爱免费 | 亚洲欧美视频一区二区三区| 亚洲电影av| 亚洲高清激情| 亚洲经典在线| 99国产精品99久久久久久粉嫩| 亚洲黄色一区| 亚洲蜜桃精久久久久久久| 亚洲免费福利视频| 一区二区三区三区在线| 亚洲综合色自拍一区| 欧美一区二区黄| 乱码第一页成人|