久久久噜噜噜久噜久久,国产精品亚洲第一区在线暖暖韩国,亚洲国产欧美日韩精品

C++源文件編碼問題

Posted on 2007-04-05 15:30 小明閱讀(5861) 評論(6) 編輯收藏引用所屬分類: C/C++ 、Tools 、G11N/ICU

1 . VC8(VS2005)

VC8能識別的源文件編碼有三種:ANSI(本地codepage),utf8,utf16. 后面兩種要保留BOM,否則VC8不能識別。

基本上源文件的編碼其實只對文件中的字符串的值有影響。

先說結論：
對于普通字符串("中文1234")，VC8會把它從源文件的編碼格式轉為ANSI字符串。
對于寬字符串(L"中文1234"), VC8會把它從源文件的編碼格式轉為utf16字符串。

例子1：test.cpp (編碼是utf8)

#include <stdio.h>
#include <string.h>

#define TEST_MSG            "中文1234"

int main(int argc, char* argv[])
{
    char buf[1024]={0};
    strcpy(buf,TEST_MSG);
    printf("%s\n",buf);

    for(int i=0;buf[i]!=0;++i)
    {
        printf("0x%2x ",(unsigned char)buf[i]);
    }
    return 0;
}

如果這個程序在codepage 936(簡體中文)上面去compile
輸出的結果就是
中文1234
0xd6 0xd0 0xce 0xc4 0x31 0x32 0x33 0x34
可以看出是gb2312的編碼，而不是utf8

如果這個程序在codepage 932(日文)上面去compile
輸出的結果就是
中文1234
0x92 0x86 0x95 0xb6 0x31 0x32 0x33 0x34
可以看出是shift-jis的編碼，也不是utf8
(注:shift-jis也包含"中文"兩個字)

也就是說同樣的source code在不同的code page下產生不同的可執行文件

例子2：test.cpp (編碼改為ANSI)
如果這個程序在codepage 936(簡體中文)上面去compile
輸出的結果就是
中文1234
0xd6 0xd0 0xce 0xc4 0x31 0x32 0x33 0x34
可以看出是gb2312的編碼，而不是utf8

把相同的file拷貝到codepage 932(日文)上面去compile
輸出的結果是
????1234
0xd6 0xd0 0xce 0xc4 0x31 0x32 0x33 0x34
可以看出是binary內容相同，但是string卻不同了

例子三:test.cpp (編碼utf8)

#include <stdio.h>
#include <string.h>

#define TEST_MSG            L"中文1234"

int main(int argc, char* argv[])
{
    char buf[1024]={0};
    memcpy(buf,(const char *)TEST_MSG,sizeof(TEST_MSG));
    //printf("%s\n",buf);

    for(int i=0;i<sizeof(TEST_MSG);++i)
    {
        printf("0x%x ",(unsigned char)buf[i]);
    }
    return 0;
}

在任何平臺下使用vc8去compile，結果都應該是輸出
0x2d 0x4e 0x87 0x65 0x31 0x0 0x32 0x0 0x33 0x0 0x34 0x0 0x0 0x0

順便考你一下：
如果想輸出"中文1234"的utf8格式，應該如何寫代碼，保證vc8在任何語言平臺下面去compile，結果都一樣正確？

2. gcc/g++
gcc/g++似乎不支持utf16編碼的源文件
可以處理ANSI和utf8格式的源文件(no BOM)

如果采用例子一所用的源文件(utf8編碼)
會輸出
0xe4 0xb8 0xad 0xe6 0x96 0x87 0x31 0x32 0x33 0x34
可以看出是utf8是編碼

這一點上看vc8和gcc是不同的

如果采用例子三所用的源文件(編碼是utf8,使用L和wchar_t)
會輸出
0x2d 0x4e 0x0 0x0 0x87 0x65 0x0 0x0 0x31 0x0 0x0 0x0 0x32 0x0 0x0 0x0 0x33 0x0 0x0 0x0 0x34 0x0 0x0 0x0 0x0 0x0 0x0 0x0
可以看出gcc的wchar_t是四個字節，跟vc8也不同

有些復雜，希望不要讓你困擾。

Feedback

# re: C++源文件編碼問題回復 更多評論

2007-04-05 19:36 by Corner Zhang

建議把源代碼的文件的編碼設為UTF8

# re: C++源文件編碼問題回復 更多評論

2007-04-05 22:03 by 自大者

我看樓主自己也沒搞清什么是"字符集"和"字符集編碼"，根本就不是什么utf16, 而是utf16-be, 就是ucs2, 就是你所謂的unicode.

# re: C++源文件編碼問題回復 更多評論

2007-04-05 23:31 by 阿來

長見識了 :)

# re: C++源文件編碼問題回復 更多評論

2007-09-26 09:11 by Minidx全文檢索

“任何平臺下使用vc8去compile，結果都應該是……“
VC8還支持什么平臺？？

# re: C++源文件編碼問題回復 更多評論

2008-03-07 00:27 by 逍遙劍客

頭疼, 以后全UTF吧

# re: C++源文件編碼問題 回復 更多評論

2011-12-09 10:11 by NetAsker

建議初學者別看這個。會被誤導的。
這個例子只會讓初學者更糊涂。
不知道是作者不理解unicode，還是故意攪混水。。
1。首先，第一個例子，“如果這個程序在codepage 932(日文)上面去compile” 那么，你是拷貝過去的還是在日本系統上自己編輯的？從結果來看，我覺得你是拷貝過去的。

2。在看你的例3 test 中為什么沒有字符串打印？你注視掉 //printf("%s\n",buf);這么關鍵的一句，為什么呢？？你可以用wcsprintf測試。

3。還是測試3， “在任何平臺下使用vc8去compile，結果都應該是輸出
0x2d 0x4e 0x87 0x65 0x31 0x0 0x32 0x0 0x33 0x0 0x34 0x0 0x0 0x0”

你知道這是什么編碼格式嗎？utf-8還是utf16?,你說任何平臺下使用vc8，你說的任何平臺什么意思？

刷新評論列表

只有注冊用戶登錄后才能發表評論。


相關文章: 逆向三國群英2 debug to fix crash 那些leveldb使用的奇技淫巧1-內存管理奇怪的g++的行為 printf的wrapper 如何寫出專業的C頭文件 C++源文件編碼問題 {Just for fun} 如何讓指針指向自己 [STL] 循環中erase 談談snprintf

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

小明思考

C++源文件編碼問題

Feedback

# re: C++源文件編碼問題回復 更多評論

# re: C++源文件編碼問題回復 更多評論

# re: C++源文件編碼問題回復 更多評論

# re: C++源文件編碼問題回復 更多評論

# re: C++源文件編碼問題回復 更多評論

# re: C++源文件編碼問題 回復 更多評論

日歷

公告

留言簿(17)

隨筆分類

隨筆檔案

友情連接

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

小明思考

C++源文件編碼問題

Feedback

# re: C++源文件編碼問題 回復 更多評論

# re: C++源文件編碼問題 回復 更多評論

# re: C++源文件編碼問題 回復 更多評論

# re: C++源文件編碼問題 回復 更多評論

# re: C++源文件編碼問題 回復 更多評論

# re: C++源文件編碼問題 回復 更多評論

日歷

公告

留言簿(17)

隨筆分類

隨筆檔案

友情連接

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

# re: C++源文件編碼問題回復更多評論

# re: C++源文件編碼問題回復更多評論

# re: C++源文件編碼問題回復更多評論

# re: C++源文件編碼問題回復更多評論

# re: C++源文件編碼問題回復更多評論

# re: C++源文件編碼問題回復更多評論