青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

Jiang's C++ Space

創(chuàng)作,也是一種學(xué)習(xí)的過程。

   :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::

初一看這個(gè)標(biāo)題,稍微做過C++編程的人都不認(rèn)為這是什么困難的事情,但細(xì)細(xì)想起來還是有些需要注意的。其中我想最主要的就是文本文件的格式了,我們目前常見的有下面這四種,也就是Windows的記事本所能保存的那四種格式了:

1,ANSI,也是我們最最常見的文本文件格式,在中文操作系統(tǒng)中,使用默認(rèn)的GBK編碼,而港臺用的繁體中文操作系統(tǒng)則默認(rèn)使用Big5碼,簡體中文操作系統(tǒng)打開Big5碼的文本文件,會顯示亂碼,反之亦然,ANSI是ASCII的超集,所以英文總是能正常顯示,英文占一個(gè)字節(jié),中文占兩個(gè)字節(jié),所以光憑文件大小是不知道字符數(shù)的。

2,Unicode(Little endian,LE),這是Windows默認(rèn)的Unicode編碼,每個(gè)字符都是占據(jù)兩個(gè)字節(jié),全球統(tǒng)一,所以Unicode編碼的文本文件都不會顯示亂碼,只可能由于缺乏字體的支持而顯示出小方塊(默認(rèn)是小方塊,也可能是別的)。準(zhǔn)確說Unicode的字符并不一定是占據(jù)兩個(gè)字節(jié),但在Windows環(huán)境下這么認(rèn)為是沒有任何問題的。

3
,Unicode(Big endian,BE),同上,唯一不同的是字節(jié)序,貌似這是Mac系統(tǒng)默認(rèn)的編碼格式。比如字的Unicode(LE)編碼是2D 4E,而Unicode(BE)的編碼這是4E 2D

4,UTF-8,和Unicode編碼是一一對應(yīng)的關(guān)系,并且兼容ASCII,所以UTF-8編碼的文本文件同ANSI編碼的那樣,英文總是能正常顯示,而它每個(gè)字符所占據(jù)的字節(jié)也是不確定的,可能占據(jù)一到六個(gè)字節(jié),和Unicode不同,UTF-8并沒有字節(jié)序一說,所以它往往被用作文本傳輸?shù)臉?biāo)準(zhǔn)格式,實(shí)現(xiàn)文本的跨平臺傳輸。

別的我知道的還有UTF-16等格式,由于用得少,就不提了。另外,對于以上各類格式,如果有必要,還要區(qū)分Windows版,Unix版和Mac版,它們的關(guān)鍵區(qū)別在于對換行的理解,Windows版的換行其實(shí)是
回車字符+換行字符,也就是0x0D+0x0A,而Unix版的只有換行符0x0A,Mac版的只有回車符0x0D,真是有趣極了。

那么,當(dāng)你試圖打開一個(gè)文本文件的時(shí)候,你會以哪種格式去
閱讀它呢?這讓我想起以前我曾經(jīng)工作過的一家公司,把一個(gè)任務(wù)交給我,就是做文件分類,其中有一個(gè)類型就是文本文件,這十分讓我頭疼,因?yàn)槲谋疚募]有固定的格式,所以只好根據(jù)一些字符來判斷,這個(gè)是不一定準(zhǔn)的。通常,為了區(qū)分文本文件的格式,文本文件編輯器通常都會給文本文件添加一個(gè)叫BOM的標(biāo)志,BOM是Byte Order Marked的縮寫:

ANSI:沒有BOM,直接是內(nèi)容。
UNICODE(LE):FF FE
UNICODE(BE):FE FF
UTF-8:EF BB BF

所以我們可以根據(jù)這些特征來判斷一個(gè)文本文件的編碼格式。

那如果一個(gè)Unicode文件沒有BOM,我們把它判定為ANSI格式的,豈不是亂了套?那是肯定的,但有些比較高級的文本編輯器,如UltraEdit,就有智能識別文本格式的功能,即便文本文件缺乏BOM,但這個(gè)我們就不討論了。

也許你要問了:
有那么繁瑣么?我只是想用C運(yùn)行庫獲取文本內(nèi)容。在Windows環(huán)境下,目前還算比較簡單了,VC++2005的運(yùn)行庫已經(jīng)支持讀取Unicode和UTF-8格式的文本文件,而下面我給出一個(gè)簡單的例子,是讀取一個(gè)UTF-8格式的文本文件的。

#include "stdafx.h"
#include 
<windows.h>

//test_utf8.txt的內(nèi)容是四個(gè)漢字:“中文測試”
//一共占據(jù)15個(gè)字節(jié),分別是:
//EF BB BF E4 B8 AD E6 96 87 E6 B5 8B E8 AF 95
//其中“EF BB BF”為BOM(Byte Order Mark),之后每個(gè)漢字占3個(gè)字節(jié)
int _tmain(int argc, _TCHAR* argv[])
{
    WCHAR szDataAll[
64];
    FILE
* pf = _wfopen(L"test_utf8.txt", L"r,ccs=utf-8");
    
if (pf!=NULL)
    {
       
long pos = ftell(pf);          //3
 
       ZeroMemory(szDataAll, 
sizeof(szDataAll));
       fread(szDataAll, 
21, pf);
       pos 
= ftell(pf);               //9
       OutputDebugStringW(szDataAll); //
 
       ZeroMemory(szDataAll, 
sizeof(szDataAll));
       fread(szDataAll, 
21, pf);
       pos 
= ftell(pf);               //11
       OutputDebugStringW(szDataAll); //
 
       ZeroMemory(szDataAll, 
sizeof(szDataAll));
       fread(szDataAll, 
21, pf);
       pos 
= ftell(pf);               //13
       OutputDebugStringW(szDataAll); //
 
       ZeroMemory(szDataAll, 
sizeof(szDataAll));
       fread(szDataAll, 
21, pf);
       pos 
= ftell(pf);               //15
       OutputDebugStringW(szDataAll); //
 
       fclose(pf);
    }
    
return 0;
}

需要注意的是,使用fopen的時(shí)候,記得使用其寬字符版_wfopen,另外,注意fopen的第二個(gè)參數(shù)ccs=utf-8,是ccs而不是css,寫錯(cuò)的話是無效的,這樣就能直接把UTF-8的文本讀進(jìn)來,而不用管BOM,也不需要額外的轉(zhuǎn)換,直接就已經(jīng)是Unicode編碼了。

注意上面我使用了ftell來測試文件指針的位置,看起來文件指針的行為確實(shí)有些怪異,貌似ftell使用起來不靈了,這個(gè)時(shí)候,這是我們要注意的一個(gè)地方;另一個(gè)要注意的地方就是fread的第二個(gè)參數(shù),我寫了2,其實(shí)指的是讀進(jìn)來的Unicode編碼的字節(jié)數(shù),要讀一個(gè)字符,那就寫2,讀兩個(gè)字符,那就寫4,而不是UTF-8的3個(gè)字節(jié)一個(gè)漢字的這種長度。

如果你要讀取一個(gè)Unicode(LE)的文本文件,將fopen的
ccs=utf-8參數(shù)改為ccs=unicode即可。

這都是你已經(jīng)知道了文件格式的前提下,所使用的方法,如果文件格式未知,你還得手工判斷一下,先用
_wfopen(L"abc.txt", L"rb")這種方式打開文件,再讀取頭幾個(gè)字節(jié)來分析。

遺憾的是,
ccs=utf-8這種參數(shù)并不是C的標(biāo)準(zhǔn),這是Microsoft VC++的功能,并且我發(fā)覺Windows Mobile平臺不能這樣用,so,下面我就只好完全自己動手豐衣足食了,總的思路就是:判斷文件格式,根據(jù)格式類型和該格式類型的標(biāo)準(zhǔn),讀取一定字符數(shù)目(究竟讀取多少字節(jié),要計(jì)算),然后利用Windows的API,MultiByToWideChar將其轉(zhuǎn)為Unicode,當(dāng)然了,如果文件就是Unicode(LE)的話,處理掉BOM就可以直接讀取了,如果是Unicode(BE)的話,得倒一下字節(jié)序。

下面給出我實(shí)現(xiàn)的類的代碼。

這是頭文件TxtReader.h:

#pragma once

#include 
<windows.h>
#include 
<stdio.h>

enum
{
    TXT_TYPE_NONE 
= 0,
    TXT_TYPE_ANSI,
    TXT_TYPE_UNICODE_LE,
    TXT_TYPE_UNICODE_BE,
    TXT_TYPE_UTF8
};

class CTxtReader
{
public:
    CTxtReader(
void);
    
~CTxtReader(void);

    BOOL Open(WCHAR
* pFileName);
    
void Close();
    BOOL Read(WCHAR
* pBuff, DWORD dwToRead, DWORD& dwRead);
    LONG Tell();

protected:
    FILE
* m_pFile;
    INT m_iType;
    CPINFO m_codepage;
    INT m_iMaxLeadBytePairNum;

    BOOL NeedNextByte(BYTE byFirstByte);
};

 這是CPP文件TxtReader.cpp:

#include "TxtReader.h"

CTxtReader::CTxtReader(
void)
{
    m_pFile 
= NULL;
    m_iType 
= TXT_TYPE_NONE;

    GetCPInfo(CP_ACP, 
&m_codepage);

    m_iMaxLeadBytePairNum 
= 0;
    
int i;
    
for(i=0; i<5; i++)
    {
        
if(m_codepage.LeadByte[i*2]==0 && m_codepage.LeadByte[i*2+1]==0)
            
break;
        
++m_iMaxLeadBytePairNum;
    }
}

CTxtReader::
~CTxtReader(void)
{
    Close();
}

BOOL CTxtReader::Open(WCHAR
* pFileName)
{
    Close();

    m_pFile 
= _wfopen(pFileName, L"rb");
    
if (m_pFile==NULL)
        
return FALSE;
    BYTE byBOM[
3];
    size_t stRead 
= fread(byBOM, 13, m_pFile);
    
if (stRead==3 && byBOM[0]==0xEF && byBOM[1]==0xBB && byBOM[2]==0xBF)
        m_iType 
= TXT_TYPE_UTF8;
    
else if (stRead>=2 && byBOM[0]==0xFF && byBOM[1]==0xFE)
    {
        m_iType 
= TXT_TYPE_UNICODE_LE;
        fseek(m_pFile, 
2, SEEK_SET);
    }
    
else if (stRead>=2 && byBOM[0]==0xFE && byBOM[1]==0xFF)
    {
        m_iType 
= TXT_TYPE_UNICODE_BE;
        fseek(m_pFile, 
2, SEEK_SET);
    }
    
else
    {
        m_iType 
= TXT_TYPE_ANSI;
        fseek(m_pFile, 
0, SEEK_SET);
    }
    
return TRUE;
}

void CTxtReader::Close()
{
    
if (m_pFile!=NULL)
    {
        fclose(m_pFile);
        m_pFile 
= NULL;
    }
    m_iType 
= TXT_TYPE_NONE;
}

BOOL CTxtReader::Read(WCHAR
* pBuff, DWORD dwToRead, DWORD& dwRead)
{
    
if (dwToRead==0)
        
return FALSE;
    INT iBuffSize;
    DWORD dwReadBytes;
    DWORD i;
    
switch (m_iType)
    {
    
case TXT_TYPE_ANSI:
        iBuffSize 
= dwToRead*2//ANSI's max bytes number of one char is 2;
        break;
    
case TXT_TYPE_UNICODE_LE:
        dwReadBytes 
= fread(pBuff, 1, dwToRead*2, m_pFile); //Each unicode char has two bytes.
        if(dwReadBytes>0)
        {
            dwRead 
= dwReadBytes/2;
            
return TRUE;
        }
        
else
            
return FALSE;
    
case TXT_TYPE_UNICODE_BE:
        dwReadBytes 
= fread(pBuff, 1, dwToRead*2, m_pFile); //Each unicode char has two bytes.
        if (dwReadBytes>0)
        {
            dwRead 
= dwReadBytes/2;
            
for (i=0; i<dwRead; i++)
                pBuff[i] 
= ((pBuff[i]&0xFF)<<8+ ((pBuff[i]>>8)&0xFF);

            
return TRUE;
        }
        
else
            
return FALSE;
        
break;
    
case TXT_TYPE_UTF8:
        iBuffSize 
= dwToRead*6//UTF-8's max bytes number of one char is 6
        break;
    }

    BYTE 
*pByBuff = new BYTE[iBuffSize];
    DWORD dwWcharRead 
= 0//Read chars(in wide char)
    BYTE *pCurrPos = pByBuff;
    
while (dwWcharRead<dwToRead)
    {
        
if(0==fread(pCurrPos, 11, m_pFile))
            
break;
        BYTE byFirst 
= *pCurrPos;
        
++pCurrPos;
        
switch (m_iType)
        {
        
case TXT_TYPE_ANSI:
            
if(NeedNextByte(byFirst))
            {
                fread(pCurrPos, 
11,m_pFile);
                
++pCurrPos;
            }
            
++dwWcharRead;
            
break;
        
case TXT_TYPE_UTF8:
            
if((byFirst|0xDF)==0xDF && (byFirst&0xC0)==0xC0// 110X XXXX : Two bytes.
            {
                fread(pCurrPos, 
11, m_pFile);
                
++pCurrPos;
            }
            
else if((byFirst|0xEF)==0xEF && (byFirst&0xE0)==0xE0//1110 XXXX : Three bytes.
            {
                fread(pCurrPos, 
12, m_pFile);
                pCurrPos
+=2;
            }
            
else if((byFirst|0xF7)==0xF7 && (byFirst&0xF0)==0xF0//1111 0XXX : Four bytes.
            {
                fread(pCurrPos, 
13, m_pFile);
                pCurrPos
+=3;
            }
            
else if((byFirst|0xFB)==0xFB && (byFirst&0xF8)==0xF8//1111 10XX : Five bytes.
            {
                fread(pCurrPos, 
14, m_pFile);
                pCurrPos
+=4;
            }
            
else if((byFirst|0xFD)==0xFD && (byFirst&0xFC)==0xFC//1111 10XX : Six bytes.
            {
                fread(pCurrPos, 
15, m_pFile);
                pCurrPos
+=5;
            }
            
++dwWcharRead;
            
break;
        }
    }

    INT iConvertedNum;
    BOOL bSucceeded 
= FALSE;
    
if(pCurrPos-pByBuff>0)
    {
        UINT iCP;
        
switch (m_iType)
        {
        
case TXT_TYPE_ANSI:
            iCP 
= CP_ACP;
            
break;
        
case TXT_TYPE_UTF8:
            iCP 
= CP_UTF8;
            
break;
        }
        iConvertedNum 
= MultiByteToWideChar(iCP, 0, (LPCSTR)pByBuff, pCurrPos-pByBuff, pBuff, dwToRead);
        
if (iConvertedNum>0)
        {
            dwRead 
= iConvertedNum;
            bSucceeded 
= TRUE;
        }
    }

    delete[] pByBuff;

    
return bSucceeded;
}

LONG CTxtReader::Tell()
{
    
if (m_pFile!=NULL)
        
return ftell(m_pFile);
    
return 0;
}

BOOL CTxtReader::NeedNextByte(BYTE byFirstByte)
{
    
int i;
    
for(i=0; i<m_iMaxLeadBytePairNum; i++)
    {
        
if(byFirstByte>=m_codepage.LeadByte[i*2&& byFirstByte<=m_codepage.LeadByte[i*2+1])
            
return TRUE;
    }
    
return FALSE;
}

其中需要特別說明的是GetCPInfo這個(gè)API,我用它來獲取相關(guān)的信息來確定:ANSI的格式下,什么字符需要讀取兩個(gè)字節(jié)。我不知道Linux環(huán)境下對應(yīng)的函數(shù)是什么,但我想應(yīng)該會有類似的函數(shù)的。

利用這個(gè)CTxtReader類,我們就能輕松從四種格式的文本文件里獲取到我們指定字符數(shù)目的字符串了,而且,Tell方法也可以準(zhǔn)確反映出文件指針的位置。

posted on 2011-06-08 12:26 Jiang Guogang 閱讀(5087) 評論(2)  編輯 收藏 引用 所屬分類: Windows Programming

評論

# re: 用VC++訪問文本文件 2011-06-08 19:13 王林
你好,可以加QQ聯(lián)系下吧!
275818489

有個(gè)項(xiàng)目請請你幫忙開發(fā)!

一定要加哦  回復(fù)  更多評論
  

# re: 用VC++訪問文本文件 2011-06-10 15:29 jc_ontheroad
當(dāng)年,曾經(jīng)在一段函數(shù)中實(shí)現(xiàn)了上述功能。這其實(shí)也由于架構(gòu)設(shè)計(jì)所需。

樓主將以對象的形式來實(shí)現(xiàn),更具通用性。  回復(fù)  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美伦理在线观看| 亚洲中无吗在线| 亚洲视频久久| 9久草视频在线视频精品| 亚洲人久久久| 久久久在线视频| 另类亚洲自拍| 亚洲国产一区二区三区a毛片| 欧美电影资源| 9久草视频在线视频精品| 亚洲欧美日韩国产一区二区| 欧美一区二区三区在线观看视频| 久久av资源网站| 欧美国产日韩亚洲一区| 国产精品国码视频| 国产日韩欧美| 亚洲毛片在线看| 午夜亚洲福利| 亚洲福利久久| 亚洲男女毛片无遮挡| 久久蜜桃av一区精品变态类天堂| 欧美aa在线视频| 国产精品亚洲美女av网站| 在线国产精品播放| 一区二区免费在线播放| 久久精品国产亚洲高清剧情介绍| 欧美不卡在线视频| 中日韩视频在线观看| 麻豆91精品91久久久的内涵| 国产精品久久999| 最新中文字幕亚洲| 久久精品一区二区三区不卡牛牛| 91久久在线播放| 久久国产加勒比精品无码| 欧美日韩精品高清| 亚洲国产一区二区a毛片| 久久狠狠婷婷| 亚洲夜晚福利在线观看| 欧美乱妇高清无乱码| 韩国精品久久久999| 亚洲欧美国产毛片在线| 亚洲日本一区二区| 久久综合九色99| 国内精品一区二区三区| 性色av一区二区三区| 亚洲娇小video精品| 久热国产精品| 在线观看国产精品网站| 久久国产精品久久久久久| 日韩午夜高潮| 欧美精品在线一区| 亚洲国产精品一区二区www在线| 欧美一级片一区| 在线亚洲美日韩| 欧美日韩一区二区精品| 日韩视频一区二区三区在线播放免费观看 | 欧美成人视屏| 狠狠色狠色综合曰曰| 午夜精品网站| 亚洲一区二区动漫| 国产精品久久久久久久第一福利| 一区二区av在线| 亚洲国产欧美在线| 久久在线播放| 亚洲人成艺术| 亚洲破处大片| 欧美日韩中文字幕综合视频 | 亚洲欧美www| 中文在线资源观看视频网站免费不卡| 欧美.www| 一区二区三区久久网| 亚洲美女视频| 国产精品美女久久久久久久| 亚洲欧美日韩在线高清直播| 亚洲免费在线观看视频| 国内偷自视频区视频综合| 久久综合给合久久狠狠狠97色69| 久久精品人人做人人综合| 在线看国产一区| 亚洲黄色尤物视频| 欧美日韩美女一区二区| 先锋a资源在线看亚洲| 欧美在线观看视频在线| 在线观看亚洲一区| 日韩亚洲综合在线| 国产丝袜一区二区| 欧美电影电视剧在线观看| 欧美日韩国产电影| 久久精品国产亚洲一区二区三区| 久久亚洲一区| 亚洲午夜视频在线观看| 欧美一区二区成人| 亚洲视频福利| 亚洲免费高清| 羞羞答答国产精品www一本| 亚洲人成啪啪网站| 噜噜噜91成人网| 久久精品一区二区三区中文字幕| 欧美成人在线免费观看| 你懂的一区二区| 狠狠爱www人成狠狠爱综合网| 久久一区欧美| 久久综合给合| 亚洲一区二区精品视频| 久久精品国产亚洲精品| 亚洲视频在线一区| 久久影院亚洲| 欧美日韩理论| 老司机67194精品线观看| 欧美日韩成人综合在线一区二区 | 欧美电影免费观看大全| 国产精品久久久久久妇女6080| 另类综合日韩欧美亚洲| 国产免费亚洲高清| 亚洲精品美女久久久久| 伊人成人开心激情综合网| 亚洲视频免费看| 夜夜嗨av一区二区三区四区 | 国产在线国偷精品产拍免费yy| 亚洲经典视频在线观看| 一区视频在线播放| 午夜性色一区二区三区免费视频| 日韩一区二区高清| 麻豆精品视频在线观看| 久久亚洲午夜电影| 国产色产综合色产在线视频| 在线亚洲电影| 亚洲欧美精品中文字幕在线| 欧美日韩精品免费| 亚洲理伦在线| 夜夜夜久久久| 欧美日本在线视频| 亚洲日本va午夜在线影院| 亚洲精品乱码久久久久久蜜桃麻豆| 久久精品日韩欧美| 久久五月婷婷丁香社区| 加勒比av一区二区| 久久久爽爽爽美女图片| 老司机67194精品线观看| 在线国产亚洲欧美| 毛片基地黄久久久久久天堂| 欧美成人国产va精品日本一级| 亚洲成色999久久网站| 久久野战av| 亚洲国产欧美久久| 在线视频欧美日韩| 国产精品vvv| 亚洲欧美视频在线观看| 久久精品视频在线免费观看| 韩日精品中文字幕| 久久综合网络一区二区| 亚洲国产视频一区| 夜夜精品视频一区二区| 国产精品卡一卡二| 欧美在线一区二区| 欧美成人午夜77777| 一本色道久久综合精品竹菊| 国产精品久久久久久久久久久久久久| 国产精品99久久久久久久久久久久| 西西人体一区二区| 亚洲电影观看| 国产精品啊啊啊| 欧美亚洲一区二区在线| 欧美国产精品劲爆| 亚洲一区二区三区色| 国产日产欧产精品推荐色| 久久尤物电影视频在线观看| 亚洲美女视频在线免费观看| 久久久久国产精品一区二区| 亚洲国产精品一区二区尤物区 | 久色成人在线| 国产精品国产三级国产普通话99| 小辣椒精品导航| 欧美激情影院| 久久精品女人的天堂av| 亚洲美女av在线播放| 国产手机视频一区二区| 欧美激情一二区| 久久丁香综合五月国产三级网站| 亚洲国产成人av好男人在线观看| 欧美一区二区三区免费在线看| 亚洲国产精品久久91精品| 国产精品久久夜| 欧美高清视频www夜色资源网| 午夜精品99久久免费| 亚洲欧洲在线免费| 久久天天躁狠狠躁夜夜av| 亚洲线精品一区二区三区八戒| 激情欧美一区二区三区| 国产精品美女诱惑| 欧美美女喷水视频| 久久久久国产一区二区三区| 亚洲一区二区三区免费观看 | 亚洲欧洲精品一区二区三区波多野1战4 | 国产精品美女999| 欧美区在线观看| 嫩草影视亚洲| 久久国产精品99精品国产| 亚洲一区三区视频在线观看| 亚洲精品网站在线播放gif|