青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

woaidongmao

文章均收錄自他人博客,但不喜標題前加-[轉貼],因其丑陋,見諒!~
隨筆 - 1469, 文章 - 0, 評論 - 661, 引用 - 0
數據加載中……

PCRE 正則表達式的幾則使用技巧歸總

PCRE正則表達式主要用于字符串的模式分割、匹配、查找及替換操作。使用正則表達式在某些簡單的環境下可能效率不高,因此如何更好的使用PCRE正則表達式需要綜合考慮。

我的PCRE正則入門,是起源于網上的一篇文章,這篇文章由淺入深的闡述了PCRE正則表達式使用的方法,我覺得是一個很好的入門材料,不過學成還是要靠個人,在使用的過程中,還是會不斷地忘記,因此反反復復的閱讀了這篇文章有四五遍,對于其中一些比較困難的知識點,甚至要用很久才能消化,但是只要能見堅持著看完,你會發現自己對于正則的運用能力就會顯著提高。

PCRE正則表達式的定義:

用于描述字符排列和匹配模式的一種語法規則。它主要用于字符串的模式分割、匹配、查找及替換操作。

PHP中的正則函數:

PHP中有兩套正則函數,兩者功能差不多,分別為:

一套是由PCREPerl Compatible Regular Expression)庫提供的。使用“preg_”為前綴命名的函數;

一套由POSIXPortable Operating System Interface of Unix )擴展提供的。使用以“ereg_”為前綴命名的函數;(POSIX的正則函數庫,自PCRE 5.3以后,就不在推薦使用,從PCRE6以后,就將被移除)

由于POSIX正則即將推出歷史舞臺,并且PCREperl的形式差不多,更利于我們在perlPCRE之間切換,所以這里重點介紹PCRE正則的使用。

PCRE正則表達式

PCRE全稱為Perl Compatible Regular Expression,意思是Perl兼容正則表達式。

PCRE中,通常將模式表達式(即正則表達式)包含在兩個反斜線“/”之間,如“/apple/”。

正則中重要的幾個概念有:元字符、轉義、模式單元(重復)、反義、引用和斷言,這些概念都可以在文章[1]中輕松的理解和掌握。

常用的元字符(Meta-character)

元字符     說明

\A       匹配字符串串首的原子

\Z       匹配字符串串尾的原子

\b       匹配單詞的邊界     /\bis/   匹配頭為is的字符串   /is\b/   匹配尾為is的字符串   /\bis\b/ 定界

\B       匹配除單詞邊界之外的任意字符   /\Bis/   匹配單詞“This”中的“is”

\d       匹配一個數字;等價于[0-9]

\D       匹配除數字以外任何一個字符;等價于[^0-9]

\w       匹配一個英文字母、數字或下劃線;等價于[0-9a-zA-Z_]

\W       匹配除英文字母、數字和下劃線以外任何一個字符;等價于[^0-9a-zA-Z_]

\s      匹配一個空白字符;等價于[\f\t\v]

\S      匹配除空白字符以外任何一個字符;等價于[^\f\t\v]

\f      匹配一個換頁符等價于 \x0c \cL

匹配一個換行符;等價于 \x0a \cJ

匹配一個回車符等價于\x0d \cM

\t     匹配一個制表符;等價于 \x09\\cl

\v     匹配一個垂直制表符;等價于\x0b\ck

\oNN   匹配一個八進制數字

\xNN   匹配一個十六進制數字

\cC    匹配一個控制字符

模式修正符(Pattern Modifiers):

模式修正符在忽略大小寫、匹配多行中使用特別多,掌握了這一個修正符,往往能解決我們遇到的很多問題。

i     -可同時匹配大小寫字母

M     -將字符串視為多行

S     -將字符串視為單行,換行符做普通字符看待,使“.”匹配任何字符

X     -模式中的空白忽略不計 

U     -匹配到最近的字符串

e     -將替換的字符串作為表達使用

格式:/apple/i匹配“apple”“Apple”等,忽略大小寫。     /i

PCRE的模式單元:

//1 提取第一位的屬性

/^\d{2} ([\W])\d{2}\\1\d{4}$匹配12-31-2006、“09/27/1996”、“86 01 4321”等字符串。但上述正則表達式不匹配“12/34-5678”的格式。這是因為模式“[\W]”的結果“/”已經被存儲。下個位置“\1”引用時,其匹配模式也是字符“/”。

當不需要存儲匹配結果時使用非存儲模式單元(?:)

例如/(?:a|b|c)(D|E|F)\\1g/ 將匹配“aEEg”。在一些正則表達式中,使用非存儲模式單元是必要的。否則,需要改變其后引用的順序。上例還可以寫成/a|b|c (C|E|F)\2g/。

 

PCRE正則表達式函數:

preg_match() preg_match_all()
preg_quote()
preg_split()
preg_grep()
preg_replace()

函數的具體使用,我們可以通過PCRE手冊來找到,下面分享一些平時積累的正則表達式:

匹配action屬性

 

$str = '';
$match = '';
preg_match_all('/\s+action=\"(?!http:)(.*?)\"\s/', $str, $match);
print_r($match);

在正則中使用回調函數

 


function callback_replace() {
$url = 'http://esfang.house.sina.com.cn';
$str = '';
$str = preg_replace ( '/(?<=\saction=\")(?!http:)(.*?)(?=\"\s)/e', 'search(\$url, \\1)', $str );

echo $str;
}

function search($url, $match){
return $url . '/' . $match;
}

帶斷言的正則匹配

 

$match = '';
$str = 'xxxxxx.com.cn bold font
paragraph text

';
preg_match_all ( '/(?<=<(\w{1})>).*(?=<\/\1>)/', $str, $match );
echo "
匹配沒有屬性的HTML標簽中的內容:";
print_r ( $match );

替換HTML源碼中的地址

 

$form_html = preg_replace ( '/(?<=\saction=\"|\ssrc=\"|\shref=\")(?!http:|javascript)(.*?)(?=\"\s)/e', 'add_url(\$url, \'\\1\')', $form_html );

最后,正則工具雖然強大,但是從效率和編寫時間上來講,有的時候可能沒有explode來的更直接,對于一些緊急或者要求不高的任務,簡單、粗暴的方法也許更好。

 

 后向引用

 

使用小括號指定一個子表達式后,匹配這個子表達式的文本可以在表達式或其它程序中作進一步的處理。默認情況下,每個分組會自動擁有一個組號,規則是:從左向右,以分組的左括號為標志,第一個出現的分組的組號為1,第二個為2,以此類推。

后向引用用于重復搜索前面某個分組匹配的文本。例如,\1代表分組1匹配的文本。難以理解?請看示例:

\b(\w+)\b\s+\1\b可以用來匹配重復的單詞,像go go, kitty kitty。首先是一個單詞,也就是單詞開始處和結束處之間的多于一個的字母或數字(\b(\w+)\b),然后是1個或幾個空白符(\s+,最后是前面匹配的那個單詞(\1)

你也可以自己指定子表達式的組號或組名。要指定一個子表達式的組名,請使用這樣的語法:(?<Word>\w+),這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的內容,你可以使用\k<Word>,所以上一個例子也可以寫成這樣:\b(?<Word>\w+)\b\s*\k<Word>\b。

使用小括號的時候,還有很多特定用途的語法。下面列出了最常用的一些:

4.分組語法捕獲(exp)匹配exp,并捕獲文本到自動命名的組里(?<name>exp)匹配exp,并捕獲文本到名稱為name的組里,也可以寫成(?'name'exp)(?:exp)匹配exp,不捕獲匹配的文本位置指定(?=exp)匹配exp前面的位置(?<=exp)匹配exp后面的位置(?!exp)匹配后面跟的不是exp的位置(?<!exp)匹配前面不是exp的位置注釋(?#comment)這種類型的組不對正則表達式的處理產生任何影響,只是為了提供讓人閱讀注釋我們已經討論了前兩種語法。第三個(?:exp)不會改變正則表達式的處理方式,只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組里面。

 

位置指定

 

接下來的四個用于查找在某些內容(但并不包括這些內容)之前或之后的東西,也就是說它們用于指定一個位置,就像\b,^,$那樣,因此它們也被稱為零寬斷言。最好還是拿例子來說明吧:

(?=exp)也叫零寬先行斷言,它匹配文本中的某些位置,這些位置的后面能匹配給定的后綴exp。比如\b\w+(?=ing\b),匹配以ing結尾的單詞的前面部分(除了ing以外的部分),如果在查找I'm singing while you're dancing.時,它會匹配singdanc。

(?<=exp)也叫零寬后行斷言,它匹配文本中的某些位置,這些位置的前面能給定的前綴匹配exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的后半部分(除了re以外的部分),例如在查找reading a book時,它匹配ading。

假如你想要給一個很長的數字中每三位間加一個逗號(當然是從右邊加起了),你可以這樣查找需要在前面和里面添加逗號的部分:((?<=\d)\d{3})*\b。請仔細分析這個表達式,它可能不像你第一眼看出來的那么簡單。

下面這個例子同時使用了前綴和后綴:(?<=\s)\d+(?=\s)匹配以空白符間隔的數字(再次強調,不包括這些空白符)。

 

負向位置指定

 

前面我們提到過怎么查找不是某個字符或不在某個字符類里的字符的方法(反義)。但是如果我們只是想要確保某個字符沒有出現,但并不想去匹配它時怎么辦?例如,如果我們想查找這樣的單詞--它里面出現了字母q,但是q后面跟的不是字母u,我們可以嘗試這樣:

\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳,直接就觀察出來了),你會發現,如果q出現在單詞的結尾的話,像Iraq,Benq,這個表達式就會出錯。這是因為[^u]總是匹配一個字符,所以如果q是單詞的最后一個字符的話,后面的[^u]將會匹配q后面的單詞分隔符(可能是空格,或者是句號或其它的什么),后面的\w+\b將會匹配下一個單詞,于是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向位置指定能解決這樣的問題,因為它只匹配一個位置,并不消費任何字符?,F在,我們可以這樣來解決這個問題:\b\w*q(?!u)\w*\b。

零寬負向先行斷言(?!exp),只會匹配后綴exp不存在的位置。\d{3}(?!\d)匹配三位數字,而且這三位數字的后面不能是數字。

同理,我們可以用(?<!exp),零寬負向后行斷言來查找前綴exp不存在的位置:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數字(實驗時發現錯誤?注意你的區分大小寫先項是否選中)。

一個更復雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標簽內里的內容。(<?(\w+)>)指定了這樣的前綴:被尖括號括起來的單詞(比如可能是<b>),然后是.*(任意的字符串),最后是一個后綴(?=<\/\1>)。注意后綴里的\/,它用到了前面提過的字符轉義;\1則是一個反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內容,這樣如果前綴實際上是<b>的話,后綴就是</b>了。整個表達式匹配的是<b></b>之間的內容(再次提醒,不包括前綴和后綴本身)。

 

貪婪與懶惰

 

當正則表達式中包含能接受重復的限定符(指定數量的代碼,例如*,{5,12})時,通常的行為是(在使整個表達式能得到匹配的前提下)匹配盡可能多的字符??紤]這個表達式:a.*b,它將會匹配最長的以a開始,以b結束的字符串。如果用它來搜索aabab的話,它會匹配整個字符串aabab。這被稱為貪婪匹配。

有時,我們更需要懶惰匹配,也就是匹配盡可能少的字符。前面給出的限定符都可以被轉化為懶惰匹配模式,只要在它后面加上一個問號?。這樣.*?就意味著匹配任意數量的重復,但是在能使整個匹配成功的前提下使用最少的重復。現在看看懶惰版的例子吧:

a.*?b匹配最短的,以a開始,以b結束的字符串。如果把它應用于aabab的話,它會匹配aabab(為什么第一個匹配是aab而不是ab?簡單地說,最先開始的區配最有最大的優先權——The Match That Begins Earliest Wins)。

5.懶惰限定符*?重復任意次,但盡可能少重復+?重復1次或更多次,但盡可能少重復??重復0次或1次,但盡可能少重復{n,m}?重復nm次,但盡可能少重復{n,}?重復n次以上,但盡可能少重復

 

平衡組

 

如果想要匹配可嵌套的層次性結構的話,就得使用平衡組了。舉個例子吧,如何把“xx <aa <bbb> <bbb> aa> yy”這樣的字符串里,最長的括號內的內容捕獲出來?

這里需要用到以下的語法構造:

(?<group>) 把捕獲的內容命名為group,并壓入堆棧

(?<-group>) 從堆棧上彈出最后壓入堆棧的名為group的捕獲內容,如果堆棧本來為空,則本分組的匹配失敗

(?(group)yes|no) 如果堆棧上存在以名為group的捕獲內容的話,繼續匹配yes部分的表達式,否則繼續匹配no部分

(?!) 零寬負向先行斷言,由于沒有后綴表達式,試圖匹配總是失敗

如果你不是一個程序員(或者你是一個對堆棧的概念不熟的程序員),你就這樣理解上面的三種語法吧:第一個就是在黑板上寫一個(或再寫一個)"group",第二個就是從黑板上擦掉一個"group",第三個就是看黑板上寫的還有沒有"group",如果有就繼續匹配yes部分,否則就匹配no部分。

我們需要做的是每碰到了左括號,就在黑板上寫一個"group",每碰到一個右括號,就擦掉一個,到了最后就看看黑板上還有沒有-如果有那就證明左括號比右括號多,那匹配就應該失敗(為了能看得更清楚一點,我用了(?'group')的語法):

<                                                        #最外層的左括號

    [^<>]*                                             #最外層的左括號后面的不是括號的內容

    (        (            (?'Open'<)            #碰到了左括號,在黑板上寫一個"Open"

           [^<>>]*                                 #匹配左括號后面的不是括號的內容

        )+        (            (?'-Open'>)   #碰到了右括號,擦掉一個"Open"

            [^<>]*                                 #匹配右括號后面不是括號的內容

        )+    )*    (?(Open)(?!))         #在遇到最外層的右括號前面,判斷黑板上還有沒有沒擦掉的"Open";如果還有,則匹配失敗

>                                                  #最外層的右括號

 

posted on 2011-09-02 19:10 肥仔 閱讀(9177) 評論(0)  編輯 收藏 引用 所屬分類: 正則表達式

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久久久国色av免费看影院| 亚洲女性裸体视频| 久久久欧美一区二区| 久热精品在线视频| 亚洲一区三区视频在线观看| 久久久福利视频| 亚洲视频综合| 久久久噜噜噜久久人人看| 亚洲网站在线| 久久午夜激情| 欧美一区二区三区免费视| 欧美激情日韩| 久久综合网络一区二区| 国产精品国产三级国产普通话99| 久久久之久亚州精品露出| 欧美日韩国产综合视频在线观看 | 亚洲欧美国产一区二区三区| 狠狠色噜噜狠狠色综合久| 99视频在线精品国自产拍免费观看| 黄色av成人| 亚洲一区二区日本| 日韩一区二区精品视频| 久久免费视频观看| 久久精品国产免费看久久精品| 欧美日韩精品欧美日韩精品一| 另类亚洲自拍| 国产综合久久| 午夜精品福利视频| 亚洲欧美在线一区| 欧美日韩一区二区三区在线| 欧美国产高清| 亚洲激情偷拍| 久久在线播放| 国产一区二区三区精品久久久| 日韩午夜在线| 亚洲三级免费观看| 久热精品视频在线| 久久天天躁狠狠躁夜夜爽蜜月| 国产精品综合不卡av| 一区二区免费在线视频| 一本色道久久88综合亚洲精品ⅰ| 久热精品在线视频| 欧美成人免费网| 亚洲激情视频| 欧美成人中文字幕| 亚洲黄网站黄| 99精品久久| 欧美日本三区| 夜夜爽www精品| 亚洲欧美国产另类| 国产伦精品一区二区| 亚洲视频欧美视频| 午夜精品区一区二区三| 国产精品久久久久久影视| 99热这里只有精品8| 亚洲一区观看| 国产日韩欧美在线| 久久国产精品免费一区| 欧美成人嫩草网站| 亚洲毛片在线免费观看| 欧美日韩精品一区二区| 在线亚洲伦理| 久久久综合免费视频| 在线免费观看日本欧美| 欧美成黄导航| 日韩一级大片| 久久大逼视频| 亚洲黄色视屏| 欧美日韩综合在线免费观看| 亚洲欧美日韩系列| 欧美r片在线| 亚洲天堂av在线免费| 国产精品一区亚洲| 久久夜色精品一区| 亚洲开发第一视频在线播放| 午夜精品久久久久久久久| 国产又爽又黄的激情精品视频| 久久综合亚州| 亚洲私人影院在线观看| 久久亚洲春色中文字幕| 日韩一级精品| 国产一区二区在线观看免费播放| 久久一区二区三区av| av不卡在线| 久久综合网hezyo| 中文国产亚洲喷潮| 国产一区亚洲| 欧美日韩成人| 久久久99免费视频| 99视频在线精品国自产拍免费观看| 久久se精品一区二区| 亚洲精品少妇网址| 国产一区二区无遮挡| 欧美日韩一区三区| 久久婷婷丁香| 亚洲欧美一级二级三级| 91久久精品国产| 久久久精品tv| 午夜精品国产精品大乳美女| 亚洲国产欧美一区二区三区久久 | 91久久精品国产91性色tv| 在线不卡欧美| 国产精品久久久久99| 免费成人高清| 久久超碰97中文字幕| 亚洲乱码久久| 欧美国产在线视频| 久久久亚洲综合| 欧美一区永久视频免费观看| 99国内精品久久久久久久软件| 国产亚洲欧美中文| 国产精品一区二区久久久| 欧美日韩国产一区精品一区| 老司机午夜精品视频| 欧美一区三区三区高中清蜜桃| 一本久久综合| 亚洲激情网站| 亚洲福利视频在线| 美女性感视频久久久| 久久黄色级2电影| 午夜精品www| 午夜一区不卡| 亚洲欧美国产va在线影院| 99亚洲精品| 亚洲麻豆视频| 亚洲精品系列| 亚洲精品一区二区三区婷婷月 | 久久精品国产99精品国产亚洲性色| 99视频超级精品| 亚洲三级影院| 亚洲人成7777| 亚洲六月丁香色婷婷综合久久| 欧美激情在线播放| 亚洲国产精品电影在线观看| 欧美韩国一区| 亚洲国产精品一区二区www| 欧美二区乱c少妇| 欧美激情日韩| 91久久久久久久久| 99精品视频免费全部在线| 夜夜精品视频一区二区| 中文在线不卡| 亚洲欧美bt| 欧美在线观看视频一区二区| 欧美在线观看一二区| 久久九九免费| 久久亚洲免费| 欧美区高清在线| 欧美午夜电影在线| 国产精品夜色7777狼人| 国产亚洲制服色| 亚洲国产91| 在线一区二区三区四区五区| 亚洲在线中文字幕| 校园春色综合网| 久久理论片午夜琪琪电影网| 欧美成人午夜免费视在线看片| 亚洲高清一二三区| 一区二区日韩| 久久av一区二区| 欧美成人自拍| 国产精品久久久久久久久搜平片| 国产日韩av高清| 亚洲黄色三级| 亚洲欧美久久久| 久久在精品线影院精品国产| 亚洲高清一区二| 亚洲欧美精品中文字幕在线| 久久久久成人精品免费播放动漫| 欧美成人激情视频免费观看| 欧美日韩一区二区在线| 国产一区清纯| 99日韩精品| 久久九九热免费视频| 欧美黄色小视频| 亚洲视频在线观看一区| 久久久久久97三级| 欧美少妇一区| 亚洲国产一区二区a毛片| 午夜精品网站| 亚洲成人直播| 欧美一级黄色录像| 欧美日韩亚洲免费| 激情av一区| 国产精品久久婷婷六月丁香| 老司机成人在线视频| 国产精品国产三级国产普通话蜜臀| 激情91久久| 欧美亚洲色图校园春色| 亚洲丰满在线| 久久国产精品色婷婷| 欧美色图五月天| 91久久久久久| 开元免费观看欧美电视剧网站| 亚洲视频在线视频| 欧美日韩国产限制| 亚洲精品精选| 另类激情亚洲| 欧美与黑人午夜性猛交久久久| 国产精品国产a级|