• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            飄雪

            C++博客 首頁(yè) 新隨筆 聯(lián)系 聚合 管理
              31 Posts :: 0 Stories :: 60 Comments :: 0 Trackbacks
                vc 2005 sp1下isspace函數(shù)的debug版本對(duì)中文處理有問(wèn)題

                今天碰到一個(gè)怪問(wèn)題,從別人那兒拿來(lái)的一段代碼先在gcc下過(guò)了,又移植到vc下編譯,結(jié)果debug時(shí)老是有assert錯(cuò)誤。看了一下代碼,錯(cuò)誤發(fā)生在一個(gè)trim函數(shù)中。trim函數(shù)接受一個(gè)char*類型的字符串參數(shù),去掉字符串前后的空格、制表符等空白字符。其中判斷是否是空白字符用的是isspace函數(shù)。按照一般的想法,char*字符串里的字符編碼無(wú)論是GBK還是utf-8,因?yàn)槎技嫒軦SCII,所以isspace函數(shù)都不應(yīng)該發(fā)生問(wèn)題。但事實(shí)是只要是字符串有中文,無(wú)論是gbk還是utf-8編碼,isspace內(nèi)都有assert錯(cuò)誤。為了便于說(shuō)明,把其中的代碼抽像出來(lái)如下:

                char* lpszBuffer = (char*)"高";
                int nLen = (int)strlen(lpszBuffer);
                for( int i=0;i
                {
                    printf("0x%x %dn",lpszBuffer[i],isspace(lpszBuffer[i]) );
                }

                這段代碼在debug編譯的情況下會(huì)assert失敗。沒(méi)有辦法,只好跟蹤到c運(yùn)行庫(kù)里,isspace的實(shí)現(xiàn)如下(在"_ctype.c"文件里):

            extern __inline int (__cdecl isspace) (
                    int c
                    )
            {
                if (__locale_changed == 0)
                {
                    return __fast_ch_check(c, _SPACE);
                }
                else
                {
                    return (_isspace_l)(c, NULL);
                }
            }

                跟蹤發(fā)現(xiàn),__locale_changed的值為0,走第一個(gè)分支,調(diào)用__fast_ch_check,它其實(shí)是個(gè)宏定義,最后進(jìn)入_chvalidator函數(shù),它的實(shí)現(xiàn)代碼如下:

            extern "C" int __cdecl _chvalidator(
                    int c,
                    int mask
                    )
            {
                    _ASSERTE((unsigned)(c + 1) <= 256);
                    return _chvalidator_l(NULL, c, mask);
            }

                錯(cuò)誤就發(fā)生在這個(gè)函數(shù)的第一行“ _ASSERTE((unsigned)(c + 1) <= 256);”。
                
                代碼看到這里,錯(cuò)誤的原因基本也就出來(lái)了。“高”的GBK編碼是“b8 df”,調(diào)用isspace函數(shù)是逐個(gè)字節(jié)判斷,但是isspace和_chvalidator接受的參數(shù)都是int,這樣就會(huì)產(chǎn)生一個(gè)char到int的轉(zhuǎn)型,在vc下,char默認(rèn)是"signed char",這樣char“b8”轉(zhuǎn)型到int后,會(huì)變成一個(gè)負(fù)數(shù),然后在assert的時(shí)候,又強(qiáng)制轉(zhuǎn)型為unsigned,它又變成了一個(gè)非常巨大的正數(shù),自然assert就失敗了。
                為什么在gcc下沒(méi)有錯(cuò)誤?gcc下的isspace函數(shù)實(shí)現(xiàn)我倒沒(méi)看,不過(guò)我的gcc中的char默認(rèn)就是“unsighed char”,所以即使isspace的實(shí)現(xiàn)跟上面的一樣,也不會(huì)產(chǎn)生問(wèn)題。
                另:在win32 release和wince下,也不會(huì)有上述問(wèn)題,因?yàn)檫@幾種環(huán)境下isspace的實(shí)現(xiàn)跟上面不一樣。
                
                問(wèn)題找到了,剩下的就看怎么解決了。
                首先用用一個(gè)最簡(jiǎn)單的方法,既然問(wèn)題發(fā)生在轉(zhuǎn)型上,只要把char的默認(rèn)類型改為unsigned char就可以了,vc也提供了這個(gè)選項(xiàng)。但這有幾個(gè)問(wèn)題,一是別人用我的代碼的時(shí)候還得修改編譯選項(xiàng),二是修改了整個(gè)工程的編譯選項(xiàng)可能會(huì)對(duì)其它代碼產(chǎn)生不好的影響。
                既然上面的方法不大好操作,那就再想想別的方法。經(jīng)觀察發(fā)現(xiàn),isspace函數(shù)中靠__locale_changed變量控制流程走向,搜索整個(gè)crt的源代碼,發(fā)現(xiàn)__locale_changed的值只有在setlocale函數(shù)中發(fā)生了改變。最后,我把代碼修改成如下:

                #if defined(WIN32) && defined(_DEBUG)
                char* locale = setlocale( LC_ALL, ".OCP" );
                #endif
                char* lpszBuffer = (char*)"高";
                int nLen = (int)strlen(lpszBuffer);
                for( int i=0;i
                {
                    printf("0x%x %dn",lpszBuffer[i],isspace(lpszBuffer[i]) );
                }
               
                這樣在debug版本上就不會(huì)再有問(wèn)題,但是可能其中仍有隱患,等到具體碰到的時(shí)候再說(shuō)吧。先把目前的工作繼續(xù)下去。

            posted on 2009-03-12 14:04 飄雪 閱讀(4663) 評(píng)論(5)  編輯 收藏 引用

            Feedback

            # re: vc 2005 sp1下isspace函數(shù)對(duì)中文處理有問(wèn)題[未登錄](méi) 2009-03-13 17:39 foxriver
            自己寫一個(gè)isspace啊,十幾行的事情,我一直不太相信vc crt string部分。  回復(fù)  更多評(píng)論
              

            # re: vc 2005 sp1下isspace函數(shù)對(duì)中文處理有問(wèn)題 2009-03-13 17:54 飄雪
            @foxriver
            自己寫一個(gè)isspace啊,十幾行的事情,我一直不太相信vc crt string部分

            最終他給我的是一個(gè)靜態(tài)庫(kù),在靜態(tài)庫(kù)里調(diào)用的isspace,沒(méi)法自己寫呀,只能繞過(guò)去  回復(fù)  更多評(píng)論
              

            # re: vc 2005 sp1下isspace函數(shù)對(duì)中文處理有問(wèn)題 2009-04-05 21:13 Dancefire
            如果我沒(méi)有理解錯(cuò),你試圖用locale為ASCII的isspace來(lái)判斷GBK編碼的空格,對(duì)么?如果我理解正確的話,那么這不是VC的問(wèn)題,而是使用上的問(wèn)題。

            對(duì)于C++而言,應(yīng)該使用isspace(ch, loc); 這個(gè)版本,loc是類型為std::locale的變量,如果你想判斷GBK的空格,那么讓loc是GBK的locale,然后這個(gè)函數(shù)就正常了。

            你現(xiàn)在使用的是C的isspace(ch)函數(shù),這個(gè)函數(shù)使用的是默認(rèn)的全局locale,你把這個(gè)全局的設(shè)為GBK,也應(yīng)該可以解決這個(gè)問(wèn)題。總之調(diào)用locale為默認(rèn)的ASCII的locale的isspace去判斷編碼為GBK的字串是否是空格,邏輯上不對(duì)。  回復(fù)  更多評(píng)論
              

            # re: vc 2005 sp1下isspace函數(shù)對(duì)中文處理有問(wèn)題 2010-10-27 10:07 leeeryan
            @Dancefire
            同意樓上,分析的很在理  回復(fù)  更多評(píng)論
              

            # re: vc 2005 sp1下isspace函數(shù)對(duì)中文處理有問(wèn)題[未登錄](méi) 2012-12-17 13:59 jack
            我也遇到這個(gè)問(wèn)題,輸出“包”字符(0xfc)時(shí),用isspace檢查返回值為0x08,所以輸出亂碼。后來(lái)我使用iswspace就好了,程序中應(yīng)該盡可能的使用寬字符函數(shù)  回復(fù)  更多評(píng)論
              


            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


            久久亚洲国产最新网站| 久久综合九色综合久99| 亚洲伊人久久成综合人影院 | 狼狼综合久久久久综合网| 婷婷伊人久久大香线蕉AV| 国产精品久久久久无码av| 久久国产免费| 精品久久久噜噜噜久久久| 日日狠狠久久偷偷色综合0| 麻豆AV一区二区三区久久| 国产精品伦理久久久久久| 亚洲精品蜜桃久久久久久| 国产精品久久久99| 欧洲人妻丰满av无码久久不卡| 久久九九久精品国产免费直播| 精品久久久久久无码中文字幕一区| 人妻系列无码专区久久五月天| 青青青青久久精品国产h| 精品综合久久久久久98| 久久综合久久性久99毛片| 久久r热这里有精品视频| 亚洲AV无码久久精品成人| 久久伊人色| 久久精品99无色码中文字幕| 久久婷婷久久一区二区三区| 久久精品国产99国产精品亚洲| 久久久噜噜噜久久| 国产免费久久精品99久久| 91精品国产91久久久久久| 国产精品久久久久jk制服| 亚洲AV无码一区东京热久久| 久久狠狠爱亚洲综合影院| 久久夜色精品国产噜噜亚洲a| 久久精品女人天堂AV麻| 久久国产成人午夜AV影院| 99久久婷婷国产综合精品草原| 久久亚洲欧美日本精品| 久久97久久97精品免视看| 久久精品国产精品亚洲| 婷婷久久五月天| 老男人久久青草av高清|