第一個就是寬字符到多字節(jié)字符轉(zhuǎn)換函數(shù),函數(shù)原型如下:
int WideCharToMultiByte(
UINT CodePage,
DWORD dwFlags,
LPCWSTR lpWideCharStr,
int cchWideChar,
LPSTR lpMultiByteStr,
int cbMultiByte,
LPCSTR lpDefaultChar,
LPBOOL lpUsedDefaultChar
);
此函數(shù)把寬字符串轉(zhuǎn)換成指定的新的字符串,如ANSI,UTF8等,新字符串不必是多字節(jié)字符集。參數(shù):
CodePage: 指定要轉(zhuǎn)換成的字符集代碼頁,它可以是任何已經(jīng)安裝的或系統(tǒng)自帶的字符集,你也可以使用如下所示代碼頁之一。
CP_ACP 當(dāng)前系統(tǒng)ANSI代碼頁
CP_MACCP 當(dāng)前系統(tǒng)Macintosh代碼頁
CP_OEMCP 當(dāng)前系統(tǒng)OEM代碼頁,一種原始設(shè)備制造商硬件掃描碼
CP_SYMBOL Symbol代碼頁,用于Windows 2000及以后版本,我不明白是什么
CP_THREAD_ACP 當(dāng)前線程ANSI代碼頁,用于Windows 2000及以后版本,我不明白是什么
CP_UTF7 UTF-7,設(shè)置此值時lpDefaultChar和lpUsedDefaultChar都必須為NULL
CP_UTF8 UTF-8,設(shè)置此值時lpDefaultChar和lpUsedDefaultChar都必須為NULL
我想最常用的應(yīng)該是CP_ACP和CP_UTF8了,前者將寬字符轉(zhuǎn)換為ANSI,后者轉(zhuǎn)換為UTF8。
dwFlags: 指定如何處理沒有轉(zhuǎn)換的字符, 但不設(shè)此參數(shù)函數(shù)會運行的更快一些,我都是把它設(shè)為0。 可設(shè)的值如下表所示:
WC_NO_BEST_FIT_CHARS 把不能直接轉(zhuǎn)換成相應(yīng)多字節(jié)字符的Unicode字符轉(zhuǎn)換成lpDefaultChar指定的默認(rèn)字符。也就是說,如果把Unicode轉(zhuǎn)換成多字節(jié)字符,然后再轉(zhuǎn)換回來,你并不一定得到相同的Unicode字符,因為這期間可能使用了默認(rèn)字符。此選項可以單獨使用,也可以和其他選項一起使用。
WC_COMPOSITECHECK 把合成字符轉(zhuǎn)換成預(yù)制的字符。它可以與后三個選項中的任何一個組合使用,如果沒有與他們中的任何一個組合,則與選項WC_SEPCHARS相同。
WC_ERR_INVALID_CHARS 此選項會致使函數(shù)遇到無效字符時失敗返回,并且GetLastError會返回錯誤碼ERROR_NO_UNICODE_TRANSLATION。否則函數(shù)會自動丟棄非法字符。此選項只能用于UTF8。
WC_DISCARDNS 轉(zhuǎn)換時丟棄不占空間的字符,與WC_COMPOSITECHECK一起使用
WC_SEPCHARS 轉(zhuǎn)換時產(chǎn)生單獨的字符,此是默認(rèn)轉(zhuǎn)換選項,與WC_COMPOSITECHECK一起使用
WC_DEFAULTCHAR 轉(zhuǎn)換時使用默認(rèn)字符代替例外的字符,(最常見的如’?’),與WC_COMPOSITECHECK一起使用。
當(dāng)指定WC_COMPOSITECHECK時,函數(shù)會將合成字符轉(zhuǎn)換成預(yù)制字符。合成字符由一個基字符和一個不占空間的字符(如歐洲國家及漢語拼音的音標(biāo))組成,每一個都有不同的字符值。預(yù)制字符有一個用于表示基字符和不占空間字符的合成體的單一的字符值。
當(dāng)指定WC_COMPOSITECHECK選項時,也可以使用上表列出的最后3個選項來定制預(yù)制字符的轉(zhuǎn)換規(guī)則。這些選項決定了函數(shù)在遇到寬字符串的合成字符沒有對應(yīng)的預(yù)制字符時的行為,他們與WC_COMPOSITECHECK一起使用,如果都沒有指定,函數(shù)默認(rèn)WC_SEPCHARS。
對于下列代碼頁,dwFlags必須為0,否則函數(shù)返回錯誤碼ERROR_INVALID_FLAGS。
50220 50221 50222 50225 50227 50229 52936 54936 57002到57011 65000(UTF7) 42(Symbol)
對于UTF8,dwFlags必須為0或WC_ERR_INVALID_CHARS,否則函數(shù)都將失敗返回并設(shè)置錯誤碼ERROR_INVALID_FLAGS,你可以調(diào)用GetLastError獲得。
lpWideCharStr: 待轉(zhuǎn)換的寬字符串。
cchWideChar: 待轉(zhuǎn)換寬字符串的長度,-1表示轉(zhuǎn)換到字符串結(jié)尾。
lpMultiByteStr: 接收轉(zhuǎn)換后輸出新串的緩沖區(qū)。
cbMultiByte: 輸出緩沖區(qū)大小,如果為0,lpMultiByteStr將被忽略,函數(shù)將返回所需緩沖區(qū)大小而不使用lpMultiByteStr。
lpDefaultChar: 指向字符的指針, 在指定編碼里找不到相應(yīng)字符時使用此字符作為默認(rèn)字符代替。 如果為NULL則使用系統(tǒng)默認(rèn)字符。對于要求此參數(shù)為NULL的dwFlags而使用此參數(shù),函數(shù)將失敗返回并設(shè)置錯誤碼ERROR_INVALID_PARAMETER。
lpUsedDefaultChar:開關(guān)變量的指針,用以表明是否使用過默認(rèn)字符。對于要求此參數(shù)為NULL的dwFlags而使用此參數(shù),函數(shù)將失敗返回并設(shè)置錯誤碼ERROR_INVALID_PARAMETER。lpDefaultChar和lpUsedDefaultChar都設(shè)為NULL,函數(shù)會更快一些。
返回值: 如果函數(shù)成功,且cbMultiByte非0,返回寫入lpMultiByteStr的字節(jié)數(shù)(包括字符串結(jié)尾的null);cbMultiByte為0,則返回轉(zhuǎn)換所需
字節(jié)數(shù)。函數(shù)失敗,返回0。
注意:函數(shù)WideCharToMultiByte使用不當(dāng),會給影響程序的安全。調(diào)用此函數(shù)會很容易導(dǎo)致內(nèi)存泄漏,因為lpWideCharStr指向的輸入緩沖區(qū)大小是寬字符數(shù),而lpMultiByteStr指向的輸出緩沖區(qū)大小是字節(jié)數(shù)。為了避免內(nèi)存泄漏,應(yīng)確保為輸出緩沖區(qū)指定合適的大小。我的方法是先使cbMultiByte為0調(diào)用WideCharToMultiByte一次以獲得所需緩沖區(qū)大小,為緩沖區(qū)分配空間,然后再次調(diào)用WideCharToMultiByte填充緩沖區(qū),詳見下面的代碼。另外,從Unicode UTF16向非Unicode字符集轉(zhuǎn)換可能會導(dǎo)致數(shù)據(jù)丟失,因為該字符集可能無法找到表示特定Unicode數(shù)據(jù)的字符。
wchar_t* pwszUnicode = "Holle, word! 你好,中國! ";
int iSize;
char* pszMultiByte;
iSize = WideCharToMultiByte(CP_ACP, 0, pwszUnicode, -1, NULL, 0, NULL, NULL);
pszMultiByte = (char*)malloc((iSize+1)/**sizeof(char)*/);
WideCharToMultiByte(CP_ACP, 0, pwszUnicode, -1, pszMultiByte, iSize, NULL, NULL);
第二個是多字節(jié)字符到寬字符轉(zhuǎn)換函數(shù),函數(shù)原型如下:
> int MultiByteToWideChar(
UINT CodePage,
DWORD dwFlags,
LPCSTR lpMultiByteStr,
int cbMultiByte,
LPWSTR lpWideCharStr,
int cchWideChar
);
此函數(shù)把多字節(jié)字符串轉(zhuǎn)換成寬字符串(Unicode),待轉(zhuǎn)換的字符串并不一定是多字節(jié)的。
此函數(shù)的參數(shù),返回值及注意事項參見上面函數(shù)WideCharToMultiByte的說明,這里只對dwFlags做簡單解釋。
dwFlags: 指定是否轉(zhuǎn)換成預(yù)制字符或合成的寬字符,對控制字符是否使用像形文字,以及怎樣處理無效字符。
MB_PRECOMPOSED 總是使用預(yù)制字符,即有單個預(yù)制字符時,就不會使用分解的基字符和不占空間字符。此為函數(shù)的默認(rèn)選項,不能和MB_COMPOSITE合用
MB_COMPOSITE 總是使用分解字符,即總是使用基字符+不占空間字符的方式
MB_ERR_INVALID_CHARS 設(shè)置此選項,函數(shù)遇到非法字符就失敗并返回錯誤碼ERROR_NO_UNICODE_TRANSLATION,否則丟棄非法字符
MB_USEGLYPHCHARS 使用像形字符代替控制字符
對于下列代碼頁,dwFlags必須為0,否則函數(shù)返回錯誤碼ERROR_INVALID_FLAGS。
50220 50221 50222 50225 50227 50229 52936 54936 57002到57011 65000(UTF7) 42(Symbol)
對于UTF8,dwFlags必須為0或MB_ERR_INVALID_CHARS,否則函數(shù)都將失敗并返回錯誤碼ERROR_INVALID_FLAGS。
以下函數(shù)我沒用過,只簡要說明之。
int GetTextCharset( HDC hdc );
此函數(shù)獲取當(dāng)前選進的設(shè)備描述表的字符集,等同于GetTextCharsetInfo(hdc, NULL, 0)。
返回值: 成功返回字符集標(biāo)識,失敗返回DEFAULT_CHARSET。
posted on 2009-05-25 21:16
李陽 閱讀(420)
評論(0) 編輯 收藏 引用