青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

逛奔的蝸牛

我不聰明,但我會很努力

   ::  :: 新隨筆 ::  ::  :: 管理 ::

1.文件分為文本文件和二進(jìn)制文件﹐不過本質(zhì)都一樣﹐都是些01。

2.計算機(jī)存儲設(shè)備存儲的0或1﹐稱為計算機(jī)的一個二進(jìn)制位(bit)。

3.二進(jìn)制文件的0和1有專門的應(yīng)用程序來讀﹐所以它們沒有什么亂不亂碼的問題﹐只要該程序認(rèn)得就行。(像doc,xls,exe,dll等)

4.文本文件就不一樣了﹐notepad要認(rèn)識它﹐vs.net要認(rèn)識它,UE也要認(rèn)識它...所以它們就要有一個標(biāo)準(zhǔn)。這個標(biāo)準(zhǔn)的原理其實(shí)很簡單﹐就是把所有的字符都給它一個序號﹐然后根據(jù)這個序號來找字符就可以了。這個東東就是編碼表,也叫字符集(charset)。

5.文本文件存的都是字符﹐如﹕A,?,@,x。很明顯一個bit不能表示﹐剛好計算機(jī)的存儲單位--字節(jié)(byte)就是多個字節(jié)(1個byte=8個bit),因此用byte來表示字符就理所當(dāng)然了。

6.第一個編碼表--ASCII碼很快產(chǎn)生﹐很簡單﹐就是用一個byte來表示一個字符(最高位置0),總共能存儲128(2^8)個字符。如A用65表示﹐存在計算機(jī)中就是01000001(65)﹐為了書寫方便﹐我們一般記作0x41(16進(jìn)制),97則表示小寫的a,存在計算機(jī)中就是01100001(97)﹐記作0x61。?用63表示,記作0x3F。

7.英語國家的大小寫字母加起來才52個字符﹐再加上數(shù)字﹐符號和一些特殊字符﹐已經(jīng)足夠使用。所以ASCII剛開始非常流行(誰叫計算機(jī)不是咱中國發(fā)明的... )

8.隨著計算機(jī)的普及﹐當(dāng)非英語系的國家開始使用時﹐ASCII已經(jīng)明顯不能滿足了(總不成天天使用xiao sheng來表示"小生"吧),所以這些國家(地區(qū))就開始制訂自己的標(biāo)準(zhǔn)。

9.中國大陸制訂了簡體漢字的字符集(GB2312)。和英語國家不同﹐我們的漢字遠(yuǎn)遠(yuǎn)不止128個﹐所以一個byte肯定不能表示完﹐那就多加個byte,16位(65536)總可以了吧。不過這樣雖解決了位數(shù)不夠的問題﹐但是原來的英文文件怎么辦?總不成又全部拿出來改成雙字節(jié)吧。幸好﹐居然發(fā)現(xiàn)原來的ASCII的第一位居然是0﹐那我們把第1位改成1不就OK了嗎?以后凡看到0開頭的就讀1個字節(jié)﹐1開頭的就讀2個字節(jié)。(而且128*128表示所有的簡體字也足夠了)

10.因此在GB2312標(biāo)準(zhǔn)中,"小"的序號是0xD0A1,表示成11010000 10100001,而A還是表示成01000001,這就是為什么簡體操作系統(tǒng)讀ASCII文件不會亂碼﹐而反之則不然的原因。

11.目前來說﹐情況還比較好﹐中國大陸的計算機(jī)運(yùn)行正常。

12.看到中國大陸制訂了一個標(biāo)準(zhǔn)﹐其它國家和地區(qū)也不甘示弱﹐紛紛亮出自己的字符集,于是乎什么BIG5(中國臺灣),shift_jis(日本),ks_c_5601-1987(韓國)都閃亮登場﹐一時間百鳥爭鳴,百花齊放。

13.每個國家都想與ASCII保持兼容﹐理所當(dāng)然﹐后面的字符就完全不一樣了﹐因此﹐同樣的0xD0A1,在GB2312中是"小"字﹐而在BIG5中卻是"苤"字。你想想﹐這樣不亂才怪。

14.到了這時候﹐總有人會想到﹐再這樣繼續(xù)下去是肯定不行的﹐于是它們就想到了﹐如果有一個標(biāo)準(zhǔn)﹐能包括所有字符那不就OK了嗎?

15.于是"大哥大"標(biāo)準(zhǔn)就出來了﹐這就是unicode,為了能夠足夠表示世界上的所有字符這樣光榮而又偉大的任務(wù)﹐這家伙用了四個字節(jié)來表示(2的32次方到底是多少﹐我也懶得算了),這下好了﹐天下太平了﹐再也不會有麻煩了﹐耳根清靜了...

15.不過unicode好是好﹐但是畢竟四個字節(jié)表示一個字符"浪費(fèi)"太大了(我那破貓上網(wǎng)容易嗎﹐電信黑呀﹐說好是2M﹐就給我200K...)﹐而且大家"驚奇"地發(fā)現(xiàn)﹐居然世界上一些"較強(qiáng)大"的國家的字符剛好集中在前65536位前﹐呵呵﹐結(jié)果unicode也分成了unicode-16和unicode-32了﹐自然﹐前者只用兩個字節(jié)表示(所以只能表示前65536位嘍,歐亞國家大部分字符都OK了﹐什么﹐你們那個@$Y$%字符沒有﹐呵呵﹐不管我什么事,找標(biāo)準(zhǔn)協(xié)會﹐都是那幫家伙弄的...)

16.雖然標(biāo)準(zhǔn)出來了﹐可是好歹ASCII也用了這么久﹐那些英語國家也在那里嚷嚷﹐這倒好﹐搞個什么破標(biāo)準(zhǔn)﹐我們又沒有得到什么好處﹐反而讓我們原來的程序都運(yùn)行不了了(為什么呀﹐你想想﹐原來我們的程序字符都是一個字節(jié)一個字節(jié)認(rèn)﹐現(xiàn)在倒好﹐全改成2個一起認(rèn)﹐這還怎么跑呀?)﹐況且我們憑白無故了用了這么多0﹐真別扭(unicode中的前128位還是ASCII標(biāo)準(zhǔn)﹐只不過在前面加了8個0)﹐由于那些國家"勢力"比較大﹐所以這個問題不容忽視

17.這個世界上的牛人總是這么多﹐這個問題很容易就被小意思地解決了。

18.想想GB2312怎么解決與ASCII兼容的問題的(1開頭的就讀2個字節(jié)﹐0開頭的就讀1個字節(jié))﹐同樣﹐UTF也這樣﹐0開頭的讀1個字節(jié)(ASCII碼)﹐110開頭的讀2個字節(jié)﹐1110開頭的讀3個字節(jié)﹐這就是偉大的UTF-8(當(dāng)然還有UTF-16,原理一樣﹐xx開頭的讀4個字節(jié)﹐xx開頭的讀5個字節(jié)﹐xx開頭的讀6個字節(jié))

19.當(dāng)然UTF-8沒GB2312這么簡單﹐讀完之后不能直接查編碼表﹐多加一個步驟﹐按照模板提取一下字符再查就OK了

以下就是UTF-8的模板
0x0000 - 0x007F用一個字節(jié)表示 0xxxxxxx 
0x0080 - 0x07FF用兩個字節(jié)表示 110xxxxx 10xxxxxx 
0x0800 - 0xFFFF用三個字節(jié)表示 1110xxxx 10xxxxxx 10xxxxxx 
舉個例子吧,
如果你遇到了11100110 10110001 10001001 01000001 這樣的字節(jié)流﹐首先你看第一個字節(jié)以1110開頭﹐即讀3個字節(jié)并按模板提取得到 0110 110001 001001(去除模板標(biāo)志﹐再四字節(jié)四字節(jié)讀即0x6c49),查unicode編碼表就是"漢"字,而最后一個以0開頭就一定是一個字節(jié)了﹐0x0041,也就是"A"。

20.好了﹐上面是原理﹐再來談?wù)労喎斌w操作系統(tǒng)轉(zhuǎn)換時的亂碼問題吧

21.按照我的想法﹐windows操作系統(tǒng)應(yīng)該有一個默認(rèn)的系統(tǒng)字符集﹐如簡體操作系統(tǒng)應(yīng)該是GB碼﹐繁體操作系統(tǒng)則是BIG5,英文操作系統(tǒng)是ASCII。系統(tǒng)內(nèi)的軟件(notepad)默認(rèn)都是使用這個字符集。

22.所以我在繁體操作系統(tǒng)默認(rèn)存儲的文本文件就是BIG5了﹐當(dāng)這個文件到了簡體系統(tǒng)里﹐它的notepad程序則使用自己的默認(rèn)編碼(GB)來讀取﹐這樣就亂了。

23.因此如果在保存時就使用utf-8來保存﹐應(yīng)該在兩系統(tǒng)切換時就不會有問題了。

24.而要解決這個問題其實(shí)也很簡單﹐只要知道這個文本文件原來的編碼就可以了﹐使用它讀出來﹐再轉(zhuǎn)成unicode即可。

======

PS:關(guān)于BOM小知識:

UTF的字節(jié)序和BOM

UTF-8以字節(jié)為編碼單元,沒有字節(jié)序的問題。UTF-16以兩個字節(jié)為編碼單元,在解釋一個UTF-16文本前,首先要弄清楚每個編碼單元的字節(jié)序。例如收到一個“奎”的Unicode編碼是594E,“乙”的Unicode編碼是4E59。如果我們收到UTF-16字節(jié)流“594E”,那么這是“奎”還是“乙”?

Unicode規(guī)范中推薦的標(biāo)記字節(jié)順序的方法是BOM。BOM不是“Bill Of Material”的BOM表,而是Byte Order Mark。BOM是一個有點(diǎn)小聰明的想法:在UCS編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的編碼是FEFF。而FFFE在UCS中是不存在的字符,所以不應(yīng)該出現(xiàn)在實(shí)際傳輸中。UCS規(guī)范建議我們在傳輸字節(jié)流前,先傳輸字符"ZERO WIDTH NO-BREAK SPACE"。

這樣如果接收者收到FEFF,就表明這個字節(jié)流是Big-Endian的;如果收到FFFE,就表明這個字節(jié)流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM。

UTF-8不需要BOM來表明字節(jié)順序,但可以用BOM來表明編碼方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是EF BB BF。所以如果接收者收到以EF BB BF開頭的字節(jié)流,就知道這是UTF-8編碼了。

Windows就是使用BOM來標(biāo)記文本文件的編碼方式的。

From: http://yingzi-ing.blogbus.com/logs/63443157.html

posted on 2010-12-29 07:21 逛奔的蝸牛 閱讀(440) 評論(0)  編輯 收藏 引用 所屬分類: Java
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            日韩一级成人av| 亚洲看片网站| 99视频一区二区三区| 久久福利影视| 老妇喷水一区二区三区| 免费视频亚洲| 最新国产の精品合集bt伙计| 日韩一区二区精品在线观看| 久久免费偷拍视频| 尤物99国产成人精品视频| 久久久久久久999精品视频| 亚洲欧美日韩在线观看a三区| 国产精品swag| 久久爱www.| 久久久久亚洲综合| 亚洲第一中文字幕在线观看| 麻豆精品视频在线观看视频| 欧美自拍丝袜亚洲| 一区二区三区在线高清| 欧美一区二区三区视频免费播放 | 亚洲国产影院| 亚洲黄色免费网站| 欧美视频在线不卡| 麻豆成人小视频| 欧美成人免费播放| 亚洲午夜在线观看| 欧美一区二区三区久久精品茉莉花| 国内精品久久久久影院优| 欧美成人69av| 国产精品久久综合| 美女视频黄免费的久久| 欧美日韩精品在线| 久久色在线播放| 欧美日韩系列| 亚洲国产精品黑人久久久| 国产精品日本欧美一区二区三区| 久久久综合香蕉尹人综合网| 欧美日韩国产一区二区| 久久综合伊人77777蜜臀| 欧美色中文字幕| 91久久夜色精品国产网站| 国产午夜精品久久| 亚洲欧洲日产国产网站| 一区二区视频免费在线观看 | 老司机成人在线视频| 欧美日韩精品中文字幕| 蜜桃伊人久久| 国模一区二区三区| 欧美一区二区黄色| 欧美一区二区在线看| 欧美三级不卡| 日韩一级大片| 亚洲视频在线一区| 欧美日韩另类综合| 亚洲精品久久视频| 日韩一区二区福利| 欧美福利电影网| 亚洲欧洲一二三| 亚洲三级免费| 欧美日韩免费观看中文| 91久久综合亚洲鲁鲁五月天| 亚洲精品女人| 欧美日韩麻豆| 亚洲主播在线| 久久综合伊人| 亚洲精品日韩激情在线电影| 欧美成人激情在线| 亚洲国产高清高潮精品美女| 亚洲美女黄网| 国产精品久久久久久久久久免费| 一本色道久久综合狠狠躁篇怎么玩 | 欧美日本一道本| 亚洲激情第一页| 亚洲欧美99| 免费观看日韩| 亚洲视频专区在线| 国产精品国产自产拍高清av王其| 亚洲一区二区三区四区中文| 久久精品最新地址| 亚洲精品综合久久中文字幕| 欧美性视频网站| 榴莲视频成人在线观看| 日韩一级在线观看| 久热精品视频在线免费观看 | 老司机午夜免费精品视频| 亚洲国产欧美国产综合一区| 国产精品mm| 免费不卡欧美自拍视频| 亚洲图片欧美午夜| 欧美一区二区三区免费看| 在线看国产日韩| 欧美另类久久久品| 欧美中文字幕精品| 欧美国产日本在线| 久久久91精品| 亚洲男人天堂2024| 亚洲激情在线激情| 国产伪娘ts一区| 国产精品久久久久永久免费观看 | 亚洲第一天堂无码专区| 欧美日韩亚洲在线| 欧美不卡视频一区| 在线视频中文亚洲| 亚洲精品日产精品乱码不卡| 久久不见久久见免费视频1| 亚洲一区二区三区在线看| 伊人激情综合| 在线电影国产精品| 国产日韩欧美在线观看| 欧美日韩精品免费 | 欧美国产一区在线| 久久久www成人免费无遮挡大片| 精品成人乱色一区二区| 国产美女精品视频免费观看| 欧美日韩午夜精品| 欧美伦理一区二区| 欧美精品aa| 欧美激情按摩在线| 牛人盗摄一区二区三区视频| 久久国产视频网站| 性伦欧美刺激片在线观看| 亚洲一区二区三区成人在线视频精品 | 欧美国产一区二区| 老牛嫩草一区二区三区日本| 欧美一级大片在线观看| 午夜欧美精品| 欧美在线不卡| 久久久精品国产免费观看同学| 久久精品国产96久久久香蕉| 亚洲欧美日韩国产中文 | 国产深夜精品福利| 国产美女精品视频免费观看| 国产精品电影观看| 国产亚洲成人一区| 伊人久久大香线| 亚洲国产精品日韩| 99精品99| 欧美在线电影| 久久免费黄色| 亚洲欧洲综合| 性色一区二区| 欧美日韩精品国产| 国产日韩精品视频一区二区三区| 欧美激情欧美激情在线五月| 免费高清在线视频一区·| 美女视频黄a大片欧美| 欧美日本乱大交xxxxx| 国产精品自拍在线| 亚洲国产一区二区精品专区| 亚洲影视在线播放| 久久综合免费视频影院| 欧美激情精品久久久六区热门 | 99re6这里只有精品| 一区二区三区精品视频在线观看| 亚洲欧美日韩精品久久| 久久米奇亚洲| 国产精品久久久亚洲一区| 狠狠色伊人亚洲综合网站色| 亚洲精品一区二区三区蜜桃久| 亚洲蜜桃精久久久久久久| 香港成人在线视频| 欧美激情va永久在线播放| 在线亚洲成人| 欧美韩国日本一区| 国际精品欧美精品| 久久国产视频网站| 亚洲国产高清一区二区三区| 中国女人久久久| 欧美精品xxxxbbbb| 亚洲国产日韩欧美| 免费试看一区| 久久久国产精彩视频美女艺术照福利| 欧美午夜精品一区二区三区| 亚洲乱码视频| 亚洲伦伦在线| 欧美日韩一区二区精品| 亚洲丝袜av一区| 99在线精品视频| 国产精品少妇自拍| 久久狠狠亚洲综合| 久久国产天堂福利天堂| 国产日韩精品久久| 欧美在线日韩| 欧美专区在线观看一区| 激情综合色综合久久| 欧美.日韩.国产.一区.二区| 老司机精品视频一区二区三区| 91久久极品少妇xxxxⅹ软件| 亚洲日本成人网| 国产精品男女猛烈高潮激情| 久久激情五月丁香伊人| 久久久久久久久久看片| 亚洲人久久久| 亚洲欧洲av一区二区| 在线视频国产日韩| 一本色道久久88综合亚洲精品ⅰ| 欧美日韩免费观看一区三区| 久久久www成人免费精品| 欧美精品在线视频| 久久在线免费|