作者:開心石頭
在上篇文章里,我們介紹了正則表達(dá)式的模式修正符與元字符,細(xì)心的讀者也許會(huì)發(fā)現(xiàn),這部分介紹的非常簡(jiǎn)略,而且很少有實(shí)際的例子的講解。這主要是因?yàn)榫W(wǎng)上現(xiàn)有的正則表達(dá)式資料都對(duì)這部分都有詳細(xì)的介紹和眾多的例子,如果覺得對(duì)前一部分缺乏了解可以參看這些資料。本文希望可以盡可能多涉及一些較高級(jí)的正則表達(dá)式特性。
在本文里,我們主要介紹子模式(subpatterns),逆向引用(Back references)和量詞(quantifiers),其中重點(diǎn)介紹對(duì)這些概念的一些擴(kuò)展應(yīng)用,例如子模式中的非捕獲子模式,量詞匹配時(shí)的greedy與ungreedy。
子模式(subpatterns)與逆向引用(Back references)
正則表達(dá)式可以包含多個(gè)字模式,子模式由圓括號(hào)定界,可以嵌套。這也是兩個(gè)元字符“(”和“)”的作用。子模式可以有以下作用:
1. 將多選一的分支局部化。
例如,模式: cat(aract|erpillar|)匹配了 "cat","cataract" 或 "caterpillar" 之一,沒有圓括號(hào)的話將匹配 "cataract","erpillar" 或空字符串。
2. 將子模式設(shè)定為捕獲子模式(例如上面這個(gè)例子)。當(dāng)整個(gè)模式匹配時(shí),目標(biāo)字符串中匹配了子模式的部分可以通過逆向引用進(jìn)行調(diào)用。左圓括號(hào)從左到右計(jì)數(shù)(從 1 開始)以取得捕獲子模式的數(shù)。
注意,子模式是可以嵌套的,例如,如果將字符串 "the red king" 來和模式 /the ((red|white) (king|queen))/進(jìn)行匹配,捕獲的子串為 "red king","red" 以及 "king",并被計(jì)為 1,2 和 3 ,可以通過“\1”,“\2”,“\3”來分別引用它們,“\1”包含了“\2”和“\3”,它們的序號(hào)是由左括號(hào)的順序決定的。
在一些老的linux/unux工具里,子模式使用的圓括號(hào)需要用反斜線轉(zhuǎn)義,向這種\(subpattern\),但現(xiàn)代的工具已經(jīng)不需要了,本文中使用的例子都不進(jìn)行轉(zhuǎn)義。
非捕獲子模式(non-capturing subpatterns)
用一對(duì)括號(hào)同時(shí)完成上面提到的子模式的兩個(gè)功能有時(shí)會(huì)出現(xiàn)一些問題,例如,由于逆向引用的數(shù)目是有限的(通常最大不超過9),而且經(jīng)常會(huì)遇到無需捕獲的子模式定義。這時(shí),可以在開始的括號(hào)后加上問號(hào)和冒號(hào)來表示這個(gè)子模式無需捕獲,就向下面這樣:((?:red|white) (king|queen))。
如果將“the white queen”作為模式匹配的目標(biāo)字符串,則捕獲的字串有“white queen”和“queen”,分別作為“\1”和“\2”,white雖然符合子模式“(?:red|white)”,但并不被捕獲。
我們前面已經(jīng)介紹過用括號(hào)與問號(hào)表示模式修正符的方法,為方便起見,如果需要在非捕獲子模式中插入模式修正符,可以把它直接放在問號(hào)和冒號(hào)之間,例如,下面兩個(gè)模式是等效的。
/(?i:saturday|sunday)/和/(?:(?i)saturday|sunday)/。
逆向引用(Back references)
前面介紹反斜線作用時(shí),已經(jīng)提到它的一個(gè)作用就是表示逆向引用,當(dāng)字符類之外的反斜線后跟一個(gè)大于0的十進(jìn)制數(shù)時(shí),它很有可能是一個(gè)逆向引用。它的含義正如它的名稱如言,它表示對(duì)它出現(xiàn)之前已經(jīng)捕獲的子模式的引用。這個(gè)數(shù)字代表了它引用的左括號(hào)在模式中出現(xiàn)的次序,我們?cè)诮榻B子模式時(shí)已經(jīng)看到過逆向引用的一個(gè)例子,那里的過“\1”,“\2”,“\3”分別表示所捕獲的第一,第二,和第三個(gè)小括號(hào)定義的子模式的內(nèi)容。
值得注意的是,當(dāng)反斜線后的數(shù)字小于10時(shí),可以確定此為一個(gè)逆向引用,這樣,這個(gè)逆向引用就可以出現(xiàn)在之前有相應(yīng)數(shù)目的左圓括號(hào)被捕獲前而不會(huì)出現(xiàn)混淆,只有整個(gè)模式能提供那么多的捕獲子模式,就不會(huì)報(bào)錯(cuò)。說起來似乎很混亂,還是讓我們來看下面這個(gè)例子。把介紹子模子時(shí)舉的例子拿來修改一下,前面講過字符串 "the red king" 來和模式 /the ((red|white) (king|queen))/匹配,捕獲的子串為 "red king","red" 以及 "king",并被計(jì)為 1,2 和 3 ,現(xiàn)在把字符串,修改為" king,the red king",模式改為/\3,the ((red|white) (king|queen))/,這個(gè)模式應(yīng)該也是可以匹配的。不過,并非所有的正則表達(dá)式工具都支持這種用法,安全的做法是在相應(yīng)序號(hào)的左括號(hào)之后使用與之相關(guān)的逆向引用。
需要注意的另一點(diǎn)是逆向引用的值是在目標(biāo)字符串中實(shí)際捕獲的符合子模式的字符串片段而非該子模式本本身。例如/ (sens|respons)e and \1ibility/會(huì)匹配“sense and sensibility” 和 “response and responsibility”,但不會(huì)是 "sense and responsibility"。當(dāng)被逆向引用的子模式后面有量詞從而被重復(fù)匹配了多次,逆向引用的值會(huì)以最后一次匹配的值為準(zhǔn)。例如/([abc]){3}/匹配字符串“abc”時(shí),逆向引用“\1”的值將是最后一次匹配的結(jié)果“c”。
命名子模式(named subpattern)
一些工具(例如Python)可以為逆向引用命名,從而定義出命名子模式。在Python中對(duì)正則表達(dá)式的使用是以函數(shù)或方法調(diào)用的格式,語法與這里舉的例子有較大差別。有興趣的朋友可以參看一下自己使用的工具來看看是否支持命名子模式。
重復(fù)(Repetition)和量詞(quantifiers)
在前面介紹逆向引用的部分里我們已經(jīng)接觸到了量詞(quantifiers)的概念,例如前面的例子/([abc]){3}/表示三個(gè)連續(xù)的字符,每個(gè)字符都必然是 “abc”這三個(gè)字符中的一個(gè)。在這個(gè)模式里,{3}就屬于量詞。它表示一個(gè)模式需要重復(fù)匹配(repetition)的數(shù)目。
量詞可以放在下面這些項(xiàng)目之后:
?●單個(gè)字符(有可能是被轉(zhuǎn)義的單個(gè)字符,如\xhh)
?●“.”元字符
?● 由方括號(hào)表示的字符類
?● 逆向引用
?●由小括號(hào)定義的子模式(除非它是個(gè)斷言,我們會(huì)在以后介紹)
最通用的量詞使用形式是用花括號(hào)括起的兩個(gè)由逗號(hào)分隔的數(shù)字,如這樣的格式{min,max},例如,/z{2,4}/ 可以匹配 "zz", "zzz", 或者 "zzzz",花括號(hào)中的最大值以及前面的逗號(hào)可以省略,例如/\d{3,}/可以匹配三個(gè)以上的數(shù)字,數(shù)字的數(shù)目沒有上限,而/\d{3}/(注意,沒有逗號(hào))則精確的匹配3個(gè)數(shù)字。當(dāng)花括號(hào)出現(xiàn)在不允許量詞的位置或者語法與前面提到的不符時(shí),這里它僅僅代表花括號(hào)字符本身而不再具有特殊的含義。例如{,6}不是量詞,它僅僅代表這四個(gè)字符本身的含義。
為了方便,三個(gè)最常用的量詞有它們的單字符縮寫形式,它們的的含義如下表:
*
|
相當(dāng)于 {0,}
|
+
|
相當(dāng)于 {1,}
|
?
|
相當(dāng)于 {0,1}
|
這也是以上三個(gè)元字符做為量詞使用含義。
在使用量詞特別是沒有上限限制的量詞時(shí),應(yīng)該特別注意不要構(gòu)成無限循環(huán),例如/(a?)*/,在有的正則表達(dá)式工具里。這會(huì)形成一個(gè)編譯錯(cuò),不過有的工具卻允許這種結(jié)構(gòu),但不能保證各種工具都可以很好的處理這種結(jié)構(gòu)。
量詞匹配的“greedy”與“ungreedy”
在使用帶量詞的模式時(shí),我們常會(huì)發(fā)現(xiàn)對(duì)同一模式而言,同一個(gè)目標(biāo)字符串可以有多種匹配方式。例如/\d{0,1}\d/,可以匹配兩個(gè)或三個(gè)十進(jìn)制數(shù)字,如果目標(biāo)字符串是123,當(dāng)量詞取下限0里,它匹配“12”,當(dāng)量詞取上限1里,它匹配“123”整個(gè)字符。這兩種匹配結(jié)果都是正確的,如果我們?nèi)∷淖幽J?(\d{0,1}\d)/,則匹配的結(jié)果\1到底是“12”還是“123”?
實(shí)際的運(yùn)行結(jié)果一般會(huì)是后者,因?yàn)槟J(rèn)情況下,大多數(shù)正則表達(dá)式工具的匹配是按“greedy”原則匹配的。“greedy”單詞的中的含義是“貪吃的, 貪婪的”的意思,它的行為也如此單詞的含義,所謂greedy匹配意指在量詞限制范圍內(nèi),只要能保持后續(xù)模式的匹配,匹配總是盡可能的重復(fù)下去,直到不匹配的情況發(fā)生為止。為便于理解,我們看下面這個(gè)簡(jiǎn)單的例子。
/(\d{1,5})\d/匹配“12345”這個(gè)字符串,這個(gè)模式表示在1到5個(gè)數(shù)字后面跟上一個(gè)數(shù)字,量詞范圍從1到5,當(dāng)它的值在1-4時(shí),整個(gè)模式都是匹配的,\1的值可以是“1”,“12”,“123”,“1234”,而在greedy匹配的情況下,它取匹配時(shí)的量詞最大值,因此最終匹配的結(jié)果是”1234”。
在大多數(shù)情況下,這就是我們想要的結(jié)果,但情況并不總這樣。例如,我們希望用下面這個(gè)模式提取出c語言的注釋部分(在c語言中,注釋語句放在字符串/*和*/之間)。我們使用的正則表達(dá)式是/\*.*\*/,但匹配的結(jié)果卻完全和需要的不同。當(dāng)正則表達(dá)式解析到“/\*”這后的“.*”時(shí),因?yàn)?#8220;.”可以代表任意字符,這也包含了其后需要匹配的“*/”,在量詞的作用下,這個(gè)匹配將一直進(jìn)行下去,超過下一個(gè)“*”/直到文本的結(jié)束,這顯然不是我們需要的結(jié)果。
為了完成如上例我們想要的那種匹配,正則表達(dá)式引入了ungreedy匹配方法,與greedy匹配相反,在滿足整個(gè)模式匹配的前提下,它總是取最小的量詞數(shù)目結(jié)果。Ungreedy匹配用在量詞后面加上問號(hào)“?”來表示。例如在匹配C語言的注釋時(shí),我們把正則表達(dá)式寫成如下形式:/\*.*?\*/,在量詞“*”后加上問號(hào)就可以達(dá)成想要的結(jié)果。還有前面那個(gè)例子用/(\d{1,5})\d/匹配“12345”這個(gè)字符串,如果改寫為ungreedy模式向這樣/(\d{1,5}?)\d/,、\1的值將為1。
上面的解釋也許有些不準(zhǔn)確,量詞后的問號(hào)的作用實(shí)際上是反轉(zhuǎn)當(dāng)前的正則表達(dá)式的greedy與ungreedy行為。你可以通過模式修正符“U”將正則表達(dá)式設(shè)成ungreedy模式然后在模式中通過量詞后的問號(hào)將之反轉(zhuǎn)為greedy。
一次性子模式(Once-only subpatterns)
關(guān)于量詞的另一個(gè)有趣的話題是一次性子模式(Once-only subpatterns)。要理解它的概念需要先了解一下含有量詞的正則表達(dá)式的匹配過程。我們這里舉個(gè)例子。
現(xiàn)在,讓我們用模式/\d+foo/來匹配字符串“123456bar”,當(dāng)然,它的結(jié)果是沒有匹配。但正則表達(dá)式引擎是如何工作的呢?它先分析前面的\d+,這代表一個(gè)以上的數(shù)字,然后檢查目標(biāo)字符串的對(duì)應(yīng)位置的第一個(gè)字符“1”,符合模式,然后根據(jù)量詞重復(fù)這個(gè)模式對(duì)字符串進(jìn)行匹配直到“123456”始終符合“\d+”模式,接著它在目標(biāo)字符串中遇到字符“b”無法與“\d+”匹配,于是查看“\d+”的后續(xù)模式“foo”,與目標(biāo)字符串的后續(xù)部分“bar”無法匹配,這時(shí),有趣的事情出現(xiàn)了,解釋引擎會(huì)對(duì)前面已經(jīng)解析過的“\d+”模式進(jìn)行回溯,將量詞數(shù)目減少一,看剩余部分能否匹配,此時(shí)“\d+”的值改為“12345”,然后解釋引擎看目標(biāo)字符串剩余的部分“6bar”能否與剩余的模式“foo”相匹配,如果不行,就把量詞數(shù)再減一,直到達(dá)到最小的量詞限制,如果仍無法匹配,則表明目標(biāo)字符串無法匹配,返回?zé)o法匹配的結(jié)果。
現(xiàn)在,我們就可以來接觸一次性子模式了。所謂一次性子模式就是定義在正則表達(dá)式解析時(shí)不需要上述回溯過程的子模式。它用左圓括號(hào)后面的問號(hào)和小于號(hào)來表示,向這樣(?>)。如果將上面提到的例子改為一次性子模式,可以這樣書寫:
/(?>\d)+foo/,這時(shí),當(dāng)解析器遇到后面不匹配的bar時(shí),會(huì)立即返回不匹配的結(jié)果,而不會(huì)進(jìn)行前面提到的回溯過程。
需要了解的是,一次性子模式屬于非捕獲子模式,它的匹配結(jié)果不能被逆向引用。
當(dāng)一個(gè)沒有設(shè)定重復(fù)上限的子模式中包含了同樣沒有設(shè)定重復(fù)上限的模式時(shí),使用一次性子模式是唯一可以避免讓你的程序陷入長(zhǎng)時(shí)間等待的方法。例如你用“/(\D+|<\d+>)*[!?]/”這個(gè)模式去匹配一長(zhǎng)串的a字符,向這樣“aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa”,在返回最終無匹配的結(jié)果前,你會(huì)等待很長(zhǎng)的一段時(shí)間。這個(gè)模式表示一串非數(shù)字字符或者用尖括號(hào)括著的一串?dāng)?shù)字后跟隨著嘆號(hào)或者問號(hào),把這段字符串分成兩個(gè)重復(fù)的部分會(huì)有很多種分法,而無論是子模式本身還是子模式之內(nèi)的量詞的各可能值都要經(jīng)過逐一測(cè)試,這將使最終的運(yùn)算量達(dá)到一個(gè)很大的程度。這樣,你將在電腦前等待相當(dāng)長(zhǎng)的時(shí)間才會(huì)看到結(jié)果。而如果用一次性子模式來改寫剛才的模式,改成這樣/ ((?>\D+)|<\d+>)*[!?]/,你就可以很快得到運(yùn)算的結(jié)果。
未完等續(xù)