<本文PDF文檔下載>std::locale
通過(guò)前面兩節(jié)的知識(shí),我們知道了在C/C++中,字符(串)和寬字符(串)之間的轉(zhuǎn)換不是簡(jiǎn)單的,固定的數(shù)學(xué)關(guān)系,寬窄轉(zhuǎn)換依賴于本地化策略集(locale)。換句話說(shuō),一個(gè)程序在運(yùn)行之前并不知道系統(tǒng)的本地化策略集是什么,程序只有在運(yùn)行之后才通過(guò)locale獲得當(dāng)時(shí)的本地化策略集。
C有自己的locale函數(shù),我們這里直接介紹C++的locale類。
先討論locale的構(gòu)造函數(shù):
locale() throw();
這個(gè)構(gòu)造函數(shù)是獲得當(dāng)前程序的locale,用法如下:
std::locale app_loc = std::locale();
或者(這是構(gòu)造對(duì)象的兩種表示方式,后同)
std::locale app_loc;
另外一個(gè)構(gòu)造函數(shù)是:
explicit locale(const char* name);
這個(gè)構(gòu)造函數(shù)以name的名字創(chuàng)建新的locale。重要的locale對(duì)象有:
std::locale sys_loc(""); //獲得當(dāng)前系統(tǒng)環(huán)境的locale
std::locale C_loc("C"); 或者 std::locale C_loc = std::locale::classic(); //獲得C定義locale
std::locale old_loc = std::locale::global(new_loc); //將new_loc設(shè)置為當(dāng)前全局locale,并將原來(lái)的locale返回給old_loc
除了這些,其它的name具體名字依賴于C++編譯器和操作系統(tǒng),比如Linux下gcc中文系統(tǒng)的locale名字為"zh_CN.UTF-8",中文Windows可以用"chs"(更加完整的名字可以用name()函數(shù)查看)。
mbstowcs()和wcstombs()
這兩個(gè)C運(yùn)行時(shí)庫(kù)函數(shù)依賴于全局locale進(jìn)行轉(zhuǎn)換,所以,使用前必須先設(shè)置全局locale。
std::locale已經(jīng)包含在<iostream>中了,再加上我們需要用到的C++字符串,所以包含<string>。
我們先看窄到寬的轉(zhuǎn)換函數(shù):
const std::wstring s2ws(const std::string& s)
{
std::locale old_loc =
std::locale::global(std::locale(""));
const char* src_str = s.c_str();
const size_t buffer_size = s.size() + 1;
wchar_t* dst_wstr = new wchar_t[buffer_size];
wmemset(dst_wstr, 0, buffer_size);
mbstowcs(dst_wstr, src_str, buffer_size);
std::wstring result = dst_wstr;
delete []dst_wstr;
std::locale::global(old_loc);
return result;
}
我們將全局locale設(shè)置為系統(tǒng)locale,并保存原來(lái)的全局locale在old_loc中。
在制定轉(zhuǎn)換空間緩存大小的時(shí)候,考慮如下:char是用1個(gè)或多個(gè)對(duì)象,也就是1個(gè)或者多個(gè)字節(jié)來(lái)表示各種符號(hào):比如,GB2312用1個(gè)字節(jié)表示數(shù)字和字母,2個(gè)字節(jié)表示漢字;UTF-8用一個(gè)字節(jié)表示數(shù)字和字母,3個(gè)字節(jié)表示漢字,4個(gè)字節(jié)表示一些很少用到的符號(hào),比如音樂(lè)中G大調(diào)符號(hào)等。wchar_t是用1個(gè)對(duì)象(2字節(jié)或者4字節(jié))來(lái)表示各種符號(hào)。因此,表示同樣的字符串,寬字符串的大?。ㄒ簿褪莣char_t對(duì)象的數(shù)量)總是小于或者等于窄字符串大小(char對(duì)象數(shù)量)的。+1是為了在最后預(yù)留一個(gè)值為0的對(duì)象,以便讓C風(fēng)格的char或者wchar_t字符串自動(dòng)截?cái)唷@當(dāng)然是寬串大小等于窄串大小的時(shí)候才會(huì)用上的,大部分時(shí)候,字符串早在前面某個(gè)轉(zhuǎn)換完畢的位置就被0值對(duì)象所截?cái)嗔恕?br>最后我們將全局locale設(shè)置回原來(lái)的old_loc。
窄串到寬串的轉(zhuǎn)換函數(shù):
const std::string ws2s(const std::wstring& ws)
{
std::locale old_loc =
std::locale::global(std::locale(""));
const wchar_t* src_wstr = ws.c_str();
size_t buffer_size = ws.size() * 4 + 1;
char* dst_str = new char[buffer_size];
memset(dst_str, 0, buffer_size);
wcstombs(dst_str ,src_wstr, buffer_size);
std::string result = dst_str;
delete []dst_str;
std::locale::global(old_loc);
return result;
}
這里考慮轉(zhuǎn)換空間緩存大小的策略正好相反,在最極端的情況下,所有的wchar_t都需要4個(gè)char來(lái)表示,所以最大的可能就是4倍加1。
這兩個(gè)函數(shù)在VC和gcc中都能正常運(yùn)行(MinGW因?yàn)榍懊嬲f(shuō)到的原因不支持寬字符的正常使用),在VC中會(huì)給出不安全的警告,這是告訴給那些弄不清寬窄轉(zhuǎn)換實(shí)質(zhì)的人的警告,對(duì)于了解到目前這些知識(shí)的你我來(lái)說(shuō),這就是啰嗦了。