Ansi、Unicode、UTF8字符串之間的轉(zhuǎn)換和寫入文本文件
摘要: Ansi字符串最熟悉,英文占一個(gè)字節(jié),漢字2個(gè)字節(jié),以一個(gè)\0結(jié)尾,常用于txt文本文件
Unicode字符串,每個(gè)字符(漢字、英文字母)都占2個(gè)字節(jié),以2個(gè)連續(xù)的\0結(jié)尾,NT操作系統(tǒng)內(nèi)核用的是這種字符串,常被定義為typedef unsigned short wchar_t;所以我們有時(shí)常會見到什么char*無法轉(zhuǎn)換為unsigned short*之類的錯(cuò)誤,其實(shí)就是unicode
UTF8是Unicode一種壓縮形式,英文A在unicode中表示為0x0041,老外覺得這種存儲方式太浪費(fèi),因?yàn)槔速M(fèi)了50%的空間,于是就把英文壓縮成1個(gè)字節(jié),成了utf8編碼,但是漢字在utf8中占3個(gè)字節(jié),顯然用做中文不如ansi合算,這就是中國的網(wǎng)頁用作ansi編碼而老外的網(wǎng)頁常用utf8的原因。
閱讀全文
posted @
2008-08-31 22:29 greatws 閱讀(24771) |
評論 (26) 編輯