【轉(zhuǎn)】http://www.stlchina.org/twiki/bin/view.pl/Main/STLDetailString
1.聲明一個(gè)C++字符串
聲明一個(gè)字符串變量很簡(jiǎn)單:
string Str;
這樣我們就聲明了一個(gè)字符串變量,但既然是一個(gè)類,就有構(gòu)造函數(shù)和析構(gòu)函數(shù)。上面的聲明沒有傳入?yún)?shù),所以就直接使用了string的默認(rèn)的構(gòu)造函數(shù),這個(gè)函數(shù)所作的就是把Str初始化為一個(gè)空字符串。String類的構(gòu)造函數(shù)和析構(gòu)函數(shù)如下:
a) string s; //生成一個(gè)空字符串s
b) string s(str) //拷貝構(gòu)造函數(shù) 生成str的復(fù)制品
c) string s(str,stridx) //將字符串str內(nèi)“始于位置stridx”的部分當(dāng)作字符串的初值
d) string s(str,stridx,strlen) //將字符串str內(nèi)“始于stridx且長(zhǎng)度頂多strlen”的部分作為字符串的初值
e) string s(cstr) //將C字符串作為s的初值
f) string s(chars,chars_len) //將C字符串前chars_len個(gè)字符作為字符串s的初值。
g) string s(num,c) //生成一個(gè)字符串,包含num個(gè)c字符
h) string s(beg,end) //以區(qū)間beg;end(不包含end)內(nèi)的字符作為字符串s的初值
i) s.~string() //銷毀所有字符,釋放內(nèi)存
0 前言: string 的角色
C++ 語言是個(gè)十分優(yōu)秀的語言,但優(yōu)秀并不表示完美。還是有許多人不愿意使用C或者C++,為什么?原因眾多,其中之一就是C/C++的文本處理功能太麻煩,用起來很不方便。以前沒有接觸過其他語言時(shí),每當(dāng)別人這么說,我總是不屑一顧,認(rèn)為他們根本就沒有領(lǐng)會(huì)C++的精華,或者不太懂C++,現(xiàn)在我接觸perl, php, 和Shell腳本以后,開始理解了以前為什么有人說C++文本處理不方便了。
舉例來說,如果文本格式是:用戶名 電話號(hào)碼,文件名name.txt
...
現(xiàn)在我們需要對(duì)用戶名排序,且只輸出不同的姓名。
那么在shell 編程中,可以這樣用:
簡(jiǎn)單吧?
如果使用C/C++ 就麻煩了,他需要做以下工作:
先打開文件,檢測(cè)文件是否打開,如果失敗,則退出。
聲明一個(gè)足夠大得二維字符數(shù)組或者一個(gè)字符指針數(shù)組
讀入一行到字符空間
然后分析一行的結(jié)構(gòu),找到空格,存入字符數(shù)組中。
關(guān)閉文件
寫一個(gè)排序函數(shù),或者使用寫一個(gè)比較函數(shù),使用qsort排序
遍歷數(shù)組,比較是否有相同的,如果有,則要?jiǎng)h除,copy...
輸出信息
你可以用C++或者C語言去實(shí)現(xiàn)這個(gè)流程。如果一個(gè)人的主要工作就是處理這種類似的文本(例如做apache的日志統(tǒng)計(jì)和分析),你說他會(huì)喜歡C/C++么?
當(dāng)然,有了STL,這些處理會(huì)得到很大的簡(jiǎn)化。我們可以使用 fstream來代替麻煩的fopen fread fclose, 用vector 來代替數(shù)組。最重要的是用 string來代替char * 數(shù)組,使用sort排序算法來排序,用unique 函數(shù)來去重。聽起來好像很不錯(cuò) 。看看下面代碼(例程1):
也還不錯(cuò)吧,至少會(huì)比想象得要簡(jiǎn)單得多!(代碼里面沒有對(duì)錯(cuò)誤進(jìn)行處理,只是為了說明問題,不要效仿).
當(dāng)然,在這個(gè)文本格式中,不用vector而使用map會(huì)更有擴(kuò)充性,例如,還可通過人名找電話號(hào)碼等等,但是使用了map就不那么好用sort了。你可以用map試一試。
這里string的作用不只是可以存儲(chǔ)字符串,還可以提供字符串的比較,查找等。在sort和unique函數(shù)中就默認(rèn)使用了less 和equal_to函數(shù), 上面的一段代碼,其實(shí)使用了string的以下功能:
存儲(chǔ)功能,在getline() 函數(shù)中
查找功能,在find() 函數(shù)中
子串功能,在substr() 函數(shù)中
string operator < , 默認(rèn)在sort() 函數(shù)中調(diào)用
string operator == , 默認(rèn)在unique() 函數(shù)中調(diào)用
總之,有了string 后,C++的字符文本處理功能總算得到了一定補(bǔ)充,加上配合STL其他容器使用,其在文本處理上的功能已經(jīng)與perl, shell, php的距離縮小很多了。 因此掌握string 會(huì)讓你的工作事半功倍。
1 string 使用
其實(shí),string并不是一個(gè)單獨(dú)的容器,只是basic_string 模板類的一個(gè)typedef 而已,相對(duì)應(yīng)的還有wstring, 你在string 頭文件中你會(huì)發(fā)現(xiàn)下面的代碼:
由于只是解釋string的用法,如果沒有特殊的說明,本文并不區(qū)分string 和 basic_string的區(qū)別。
string 其實(shí)相當(dāng)于一個(gè)保存字符的序列容器,因此除了有字符串的一些常用操作以外,還有包含了所有的序列容器的操作。字符串的常用操作包括:增加、刪除、修改、查找比較、鏈接、輸入、輸出等。詳細(xì)函數(shù)列表參看附錄。不要害怕這么多函數(shù),其實(shí)有許多是序列容器帶有的,平時(shí)不一定用的上。
如果你要想了解所有函數(shù)的詳細(xì)用法,你需要查看basic_string,或者下載STL編程手冊(cè)。這里通過實(shí)例介紹一些常用函數(shù)。
1.1 充分使用string 操作符
string 重載了許多操作符,包括 +, +=, <, =, , [], <<, >>等,正式這些操作符,對(duì)字符串操作非常方便。先看看下面這個(gè)例子:tt.cpp(例程2)
下面是程序的輸出
有了這些操作符,在STL中仿函數(shù)都可以直接使用string作為參數(shù),例如 less, great, equal_to 等,因此在把string作為參數(shù)傳遞的時(shí)候,它的使用和int 或者float等已經(jīng)沒有什么區(qū)別了。例如,你可以使用:
有了 operator + 以后,你可以直接連加,例如:
看見其中的特點(diǎn)了嗎?只要你的等式里面有一個(gè) string 對(duì)象,你就可以一直連續(xù)"+",但有一點(diǎn)需要保證的是,在開始的兩項(xiàng)中,必須有一項(xiàng)是 string 對(duì)象。其原理很簡(jiǎn)單:
系統(tǒng)遇到"+"號(hào),發(fā)現(xiàn)有一項(xiàng)是string 對(duì)象。
系統(tǒng)把另一項(xiàng)轉(zhuǎn)化為一個(gè)臨時(shí) string 對(duì)象。
執(zhí)行 operator + 操作,返回新的臨時(shí)string 對(duì)象。
如果又發(fā)現(xiàn)"+"號(hào),繼續(xù)第一步操作。
由于這個(gè)等式是由左到右開始檢測(cè)執(zhí)行,如果開始兩項(xiàng)都是const char* ,程序自己并沒有定義兩個(gè)const char* 的加法,編譯的時(shí)候肯定就有問題了。
有了操作符以后,assign(), append(), compare(), at()等函數(shù),除非有一些特殊的需求時(shí),一般是用不上。當(dāng)然at()函數(shù)還有一個(gè)功能,那就是檢查下標(biāo)是否合法,如果是使用:
了解了嗎?如果你希望效率高,還是使用[]來訪問,如果你希望穩(wěn)定性好,最好使用at()來訪問。
1.2 眼花繚亂的string find 函數(shù) 由于查找是使用最為頻繁的功能之一,string 提供了非常豐富的查找函數(shù)。其列表如下:
以上函數(shù)都是被重載了4次,以下是以find_first_of 函數(shù)為例說明他們的參數(shù),其他函數(shù)和其參數(shù)一樣,也就是說總共有24個(gè)函數(shù) :
所有的查找函數(shù)都返回一個(gè)size_type類型,這個(gè)返回值一般都是所找到字符串的位置,如果沒有找到,則返回string::npos。有一點(diǎn)需要特別注意,所有和string::npos的比較一定要用string::size_type來使用,不要直接使用int 或者unsigned int等類型。其實(shí)string::npos表示的是-1, 看看頭文件:
find 和 rfind 都還比較容易理解,一個(gè)是正向匹配,一個(gè)是逆向匹配,后面的參數(shù)pos都是用來指定起始查找位置。對(duì)于find_first_of 和find_last_of 就不是那么好理解。
find_first_of 是給定一個(gè)要查找的字符集,找到這個(gè)字符集中任何一個(gè)字符所在字符串中第一個(gè)位置。或許看一個(gè)例子更容易明白。
有這樣一個(gè)需求:過濾一行開頭和結(jié)尾的所有非英文字符。看看用string 如何實(shí)現(xiàn):
這里把所有的英文字母大小寫作為了需要查找的字符集,先查找第一個(gè)英文字母的位置,然后查找最后一個(gè)英文字母的位置,然后用substr 來的到中間的一部分,用于輸出結(jié)果。下面就是其結(jié)果:
Hello Word
前面的符號(hào)和后面的符號(hào)都沒有了。像這種用法可以用來查找分隔符,從而把一個(gè)連續(xù)的字符串分割成為幾部分,達(dá)到 shell 命令中的 awk 的用法。特別是當(dāng)分隔符有多個(gè)的時(shí)候,可以一次指定。例如有這樣的需求:
...
我們需要以 "|" ","為分隔符,同時(shí)又要過濾空格,把每行分成相應(yīng)的字段。可以作為你的一個(gè)家庭作業(yè)來試試,要求代碼簡(jiǎn)潔。
1.3 string insert, replace, erase 了解了string 的操作符,查找函數(shù)和substr,其實(shí)就已經(jīng)了解了string的80%的操作了。insert函數(shù), replace函數(shù)和erase函數(shù)在使用起來相對(duì)簡(jiǎn)單。下面以一個(gè)例子來說明其應(yīng)用。
string只是提供了按照位置和區(qū)間的replace函數(shù),而不能用一個(gè)string字串來替換指定string中的另一個(gè)字串。這里寫一個(gè)函數(shù)來實(shí)現(xiàn)這個(gè)功能:
看看如何調(diào)用:
其輸出結(jié)果:
如果不用replace函數(shù),則可以使用erase和insert來替換,也能實(shí)現(xiàn)string_replace函數(shù)的功能:
當(dāng)然,這種方法沒有使用replace來得直接。
2 string 和 C風(fēng)格字符串 現(xiàn)在看了這么多例子,發(fā)現(xiàn)const char* 可以和string 直接轉(zhuǎn)換,例如我們?cè)谏厦娴睦又校褂?
來代用
在C語言中只有char* 和 const char*,為了使用起來方便,string提供了三個(gè)函數(shù)滿足其要求:
其中:
1、c_str 直接返回一個(gè)以\0結(jié)尾的字符串。
2、data 直接以數(shù)組方式返回string的內(nèi)容,其大小為size()的返回值,結(jié)尾并沒有\(zhòng)0字符。
3、copy 把string的內(nèi)容拷貝到buf空間中。
你或許會(huì)問,c_str()的功能包含data(),那還需要data()函數(shù)干什么?看看源碼:
原來c_str()的流程是:先調(diào)用terminate(),然后在返回data()。因此如果你對(duì)效率要求比較高,而且你的處理又不一定需要以\0的方式結(jié)束,你最好選擇data()。但是對(duì)于一般的C函數(shù)中,需要以const char*為輸入?yún)?shù),你就要使用c_str()函數(shù)。
對(duì)于c_str() data()函數(shù),返回的數(shù)組都是由string本身?yè)碛校f不可修改其內(nèi)容。其原因是許多string實(shí)現(xiàn)的時(shí)候采用了引用機(jī)制,也就是說,有可能幾個(gè)string使用同一個(gè)字符存儲(chǔ)空間。而且你不能使用sizeof(string)來查看其大小。詳細(xì)的解釋和實(shí)現(xiàn)查看Effective STL的條款15:小心string實(shí)現(xiàn)的多樣性。
另外在你的程序中,只在需要時(shí)才使用c_str()或者data()得到字符串,每調(diào)用一次,下次再使用就會(huì)失效,如:
會(huì)遇到什么錯(cuò)誤?當(dāng)你幸運(yùn)的時(shí)候pstr可能只是指向"this is Winter Hello!"的字符串,如果不幸運(yùn),就會(huì)導(dǎo)致程序出現(xiàn)其他問題,總會(huì)有一些不可遇見的錯(cuò)誤。總之不會(huì)是你預(yù)期的那個(gè)結(jié)果。
3 string 和 Charactor Traits
了解了string的用法,該詳細(xì)看看string的真相了。前面提到string 只是basic_string的一個(gè)typedef。看看basic_string 的參數(shù):
char_traits不僅是在basic_string 中有用,在basic_istream 和 basic_ostream中也需要用到。
就像Steve Donovan在過度使用C++模板中提到的,這些確實(shí)有些過頭了,要不是系統(tǒng)自己定義了相關(guān)的一些屬性,而且用了個(gè)typedef,否則還真不知道如何使用。
但復(fù)雜總有復(fù)雜道理。有了char_traits,你可以定義自己的字符串類型。當(dāng)然,有了char_traits < char > 和char_traits < wchar_t > 你的需求使用已經(jīng)足夠了,為了更好的理解string ,咱們來看看char_traits都有哪些要求。
如果你希望使用你自己定義的字符,你必須定義包含下列成員的結(jié)構(gòu):
想看看實(shí)際的例子,你可以看看sgi STL的char_traits結(jié)構(gòu)源碼.
現(xiàn)在默認(rèn)的string版本中,并不支持忽略大小寫的比較函數(shù)和查找函數(shù),如果你想練練手,你可以試試改寫一個(gè)char_traits , 然后生成一個(gè)case_string類, 也可以在string 上做繼承,然后派生一個(gè)新的類,例如:ext_string,提供一些常用的功能,例如:
定義分隔符。給定分隔符,把string分為幾個(gè)字段。
提供替換功能。例如,用winter, 替換字符串中的wende
大小寫處理。例如,忽略大小寫比較,轉(zhuǎn)換等
整形轉(zhuǎn)換。例如把"123"字符串轉(zhuǎn)換為123數(shù)字。
這些都是常用的功能,如果你有興趣可以試試。其實(shí)有人已經(jīng)實(shí)現(xiàn)了,看看Extended STL string。如果你想偷懶,下載一個(gè)頭文件就可以用,有了它確實(shí)方便了很多。要是有人能提供一個(gè)支持正則表達(dá)式的string,我會(huì)非常樂意用。
4 string 建議
使用string 的方便性就不用再說了,這里要重點(diǎn)強(qiáng)調(diào)的是string的安全性。
string并不是萬能的,如果你在一個(gè)大工程中需要頻繁處理字符串,而且有可能是多線程,那么你一定要慎重(當(dāng)然,在多線程下你使用任何STL容器都要慎重)。
string的實(shí)現(xiàn)和效率并不一定是你想象的那樣,如果你對(duì)大量的字符串操作,而且特別關(guān)心其效率,那么你有兩個(gè)選擇,首先,你可以看看你使用的STL版本中string實(shí)現(xiàn)的源碼;另一選擇是你自己寫一個(gè)只提供你需要的功能的類。
string的c_str()函數(shù)是用來得到C語言風(fēng)格的字符串,其返回的指針不能修改其空間。而且在下一次使用時(shí)重新調(diào)用獲得新的指針。
string的data()函數(shù)返回的字符串指針不會(huì)以'\0'結(jié)束,千萬不可忽視。
盡量去使用操作符,這樣可以讓程序更加易懂(特別是那些腳本程序員也可以看懂)
5 小結(jié)
難怪有人說:
string 使用方便功能強(qiáng),我們一直用它!
6 附錄
string 函數(shù)列表