欧美另类极品videosbest最新版本,亚洲一区观看,国产欧美精品在线播放

vc 2005 sp1下isspace函數對中文處理有問題

    vc 2005 sp1下isspace函數的debug版本對中文處理有問題

    今天碰到一個怪問題，從別人那兒拿來的一段代碼先在gcc下過了，又移植到vc下編譯，結果debug時老是有assert錯誤。看了一下代碼，錯誤發生在一個trim函數中。trim函數接受一個char*類型的字符串參數，去掉字符串前后的空格、制表符等空白字符。其中判斷是否是空白字符用的是isspace函數。按照一般的想法，char*字符串里的字符編碼無論是GBK還是utf-8，因為都兼容ASCII，所以isspace函數都不應該發生問題。但事實是只要是字符串有中文，無論是gbk還是utf-8編碼，isspace內都有assert錯誤。為了便于說明，把其中的代碼抽像出來如下：

   char* lpszBuffer = (char*)"高";
   int nLen = (int)strlen(lpszBuffer);
   for( int i=0;i
   {
       printf("0x%x %dn",lpszBuffer[i],isspace(lpszBuffer[i]) );
   }

    這段代碼在debug編譯的情況下會assert失敗。沒有辦法，只好跟蹤到c運行庫里，isspace的實現如下(在"_ctype.c"文件里)：

extern __inline int (__cdecl isspace) (
        int c
        )
{
    if (__locale_changed == 0)
    {
        return __fast_ch_check(c, _SPACE);
    }
    else
    {
        return (_isspace_l)(c, NULL);
    }
}

    跟蹤發現，__locale_changed的值為0，走第一個分支，調用__fast_ch_check，它其實是個宏定義，最后進入_chvalidator函數，它的實現代碼如下：

extern "C" int __cdecl _chvalidator(
        int c,
        int mask
        )
{
        _ASSERTE((unsigned)(c + 1) <= 256);
        return _chvalidator_l(NULL, c, mask);
}

   錯誤就發生在這個函數的第一行“ _ASSERTE((unsigned)(c + 1) <= 256);”。

    代碼看到這里，錯誤的原因基本也就出來了。“高”的GBK編碼是“b8 df”，調用isspace函數是逐個字節判斷，但是isspace和_chvalidator接受的參數都是int，這樣就會產生一個char到int的轉型，在vc下，char默認是"signed char"，這樣char“b8”轉型到int后，會變成一個負數，然后在assert的時候，又強制轉型為unsigned，它又變成了一個非常巨大的正數，自然assert就失敗了。
    為什么在gcc下沒有錯誤？gcc下的isspace函數實現我倒沒看，不過我的gcc中的char默認就是“unsighed char”，所以即使isspace的實現跟上面的一樣，也不會產生問題。
    另：在win32 release和wince下，也不會有上述問題，因為這幾種環境下isspace的實現跟上面不一樣。

    問題找到了，剩下的就看怎么解決了。
    首先用用一個最簡單的方法，既然問題發生在轉型上，只要把char的默認類型改為unsigned char就可以了，vc也提供了這個選項。但這有幾個問題，一是別人用我的代碼的時候還得修改編譯選項，二是修改了整個工程的編譯選項可能會對其它代碼產生不好的影響。
    既然上面的方法不大好操作，那就再想想別的方法。經觀察發現，isspace函數中靠__locale_changed變量控制流程走向，搜索整個crt的源代碼，發現__locale_changed的值只有在setlocale函數中發生了改變。最后，我把代碼修改成如下：

    #if defined(WIN32) && defined(_DEBUG)
    char* locale = setlocale( LC_ALL, ".OCP" );
    #endif
   char* lpszBuffer = (char*)"高";
   int nLen = (int)strlen(lpszBuffer);
   for( int i=0;i
   {
       printf("0x%x %dn",lpszBuffer[i],isspace(lpszBuffer[i]) );
   }

    這樣在debug版本上就不會再有問題，但是可能其中仍有隱患，等到具體碰到的時候再說吧。先把目前的工作繼續下去。

posted on 2009-03-12 14:04 飄雪閱讀(4694) 評論(5) 編輯收藏引用

Feedback

# re: vc 2005 sp1下isspace函數對中文處理有問題[未登錄] 2009-03-13 17:39 foxriver

自己寫一個isspace啊，十幾行的事情，我一直不太相信vc crt string部分。回復更多評論

# re: vc 2005 sp1下isspace函數對中文處理有問題 2009-03-13 17:54 飄雪

@foxriver
自己寫一個isspace啊，十幾行的事情，我一直不太相信vc crt string部分

最終他給我的是一個靜態庫，在靜態庫里調用的isspace，沒法自己寫呀，只能繞過去回復更多評論

# re: vc 2005 sp1下isspace函數對中文處理有問題 2009-04-05 21:13 Dancefire

如果我沒有理解錯，你試圖用locale為ASCII的isspace來判斷GBK編碼的空格，對么？如果我理解正確的話，那么這不是VC的問題，而是使用上的問題。

對于C++而言，應該使用isspace(ch, loc); 這個版本，loc是類型為std::locale的變量，如果你想判斷GBK的空格，那么讓loc是GBK的locale，然后這個函數就正常了。

你現在使用的是C的isspace(ch)函數，這個函數使用的是默認的全局locale，你把這個全局的設為GBK，也應該可以解決這個問題。總之調用locale為默認的ASCII的locale的isspace去判斷編碼為GBK的字串是否是空格，邏輯上不對。回復更多評論

# re: vc 2005 sp1下isspace函數對中文處理有問題 2010-10-27 10:07 leeeryan

@Dancefire
同意樓上，分析的很在理回復更多評論

# re: vc 2005 sp1下isspace函數對中文處理有問題[未登錄] 2012-12-17 13:59 jack

我也遇到這個問題，輸出“包”字符(0xfc)時，用isspace檢查返回值為0x08，所以輸出亂碼。后來我使用iswspace就好了，程序中應該盡可能的使用寬字符函數回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！



網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

飄雪

常用鏈接

留言簿(3)

隨筆分類(1)

隨筆檔案(31)

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

Feedback