青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

woaidongmao

文章均收錄自他人博客,但不喜標題前加-[轉貼],因其丑陋,見諒!~
隨筆 - 1469, 文章 - 0, 評論 - 661, 引用 - 0
數據加載中……

PCRE 正則表達式的幾則使用技巧歸總

PCRE正則表達式主要用于字符串的模式分割、匹配、查找及替換操作。使用正則表達式在某些簡單的環境下可能效率不高,因此如何更好的使用PCRE正則表達式需要綜合考慮。

我的PCRE正則入門,是起源于網上的一篇文章,這篇文章由淺入深的闡述了PCRE正則表達式使用的方法,我覺得是一個很好的入門材料,不過學成還是要靠個人,在使用的過程中,還是會不斷地忘記,因此反反復復的閱讀了這篇文章有四五遍,對于其中一些比較困難的知識點,甚至要用很久才能消化,但是只要能見堅持著看完,你會發現自己對于正則的運用能力就會顯著提高。

PCRE正則表達式的定義:

用于描述字符排列和匹配模式的一種語法規則。它主要用于字符串的模式分割、匹配、查找及替換操作。

PHP中的正則函數:

PHP中有兩套正則函數,兩者功能差不多,分別為:

一套是由PCREPerl Compatible Regular Expression)庫提供的。使用“preg_”為前綴命名的函數;

一套由POSIXPortable Operating System Interface of Unix )擴展提供的。使用以“ereg_”為前綴命名的函數;(POSIX的正則函數庫,自PCRE 5.3以后,就不在推薦使用,從PCRE6以后,就將被移除)

由于POSIX正則即將推出歷史舞臺,并且PCREperl的形式差不多,更利于我們在perlPCRE之間切換,所以這里重點介紹PCRE正則的使用。

PCRE正則表達式

PCRE全稱為Perl Compatible Regular Expression,意思是Perl兼容正則表達式。

PCRE中,通常將模式表達式(即正則表達式)包含在兩個反斜線“/”之間,如“/apple/”

正則中重要的幾個概念有:元字符、轉義、模式單元(重復)、反義、引用和斷言,這些概念都可以在文章[1]中輕松的理解和掌握。

常用的元字符(Meta-character)

元字符     說明

\A       匹配字符串串首的原子

\Z       匹配字符串串尾的原子

\b       匹配單詞的邊界     /\bis/   匹配頭為is的字符串   /is\b/   匹配尾為is的字符串   /\bis\b/ 定界

\B       匹配除單詞邊界之外的任意字符   /\Bis/   匹配單詞“This”中的“is”

\d       匹配一個數字;等價于[0-9]

\D       匹配除數字以外任何一個字符;等價于[^0-9]

\w       匹配一個英文字母、數字或下劃線;等價于[0-9a-zA-Z_]

\W       匹配除英文字母、數字和下劃線以外任何一個字符;等價于[^0-9a-zA-Z_]

\s      匹配一個空白字符;等價于[\f\t\v]

\S      匹配除空白字符以外任何一個字符;等價于[^\f\t\v]

\f      匹配一個換頁符等價于 \x0c \cL

匹配一個換行符;等價于 \x0a \cJ

匹配一個回車符等價于\x0d \cM

\t     匹配一個制表符;等價于 \x09\\cl

\v     匹配一個垂直制表符;等價于\x0b\ck

\oNN   匹配一個八進制數字

\xNN   匹配一個十六進制數字

\cC    匹配一個控制字符

模式修正符(Pattern Modifiers):

模式修正符在忽略大小寫、匹配多行中使用特別多,掌握了這一個修正符,往往能解決我們遇到的很多問題。

i     -可同時匹配大小寫字母

M     -將字符串視為多行

S     -將字符串視為單行,換行符做普通字符看待,使“.”匹配任何字符

X     -模式中的空白忽略不計 

U     -匹配到最近的字符串

e     -將替換的字符串作為表達使用

格式:/apple/i匹配“apple”“Apple”等,忽略大小寫。     /i

PCRE的模式單元:

//1 提取第一位的屬性

/^\d{2} ([\W])\d{2}\\1\d{4}$匹配12-31-2006“09/27/1996”“86 01 4321”等字符串。但上述正則表達式不匹配“12/34-5678”的格式。這是因為模式“[\W]”的結果“/”已經被存儲。下個位置“\1”引用時,其匹配模式也是字符“/”

當不需要存儲匹配結果時使用非存儲模式單元(?:)

例如/(?:a|b|c)(D|E|F)\\1g/ 將匹配“aEEg”。在一些正則表達式中,使用非存儲模式單元是必要的。否則,需要改變其后引用的順序。上例還可以寫成/a|b|c (C|E|F)\2g/

 

PCRE正則表達式函數:

preg_match() preg_match_all()
preg_quote()
preg_split()
preg_grep()
preg_replace()

函數的具體使用,我們可以通過PCRE手冊來找到,下面分享一些平時積累的正則表達式:

匹配action屬性

 

$str = '';
$match = '';
preg_match_all('/\s+action=\"(?!http:)(.*?)\"\s/', $str, $match);
print_r($match);

在正則中使用回調函數

 


function callback_replace() {
$url = 'http://esfang.house.sina.com.cn';
$str = '';
$str = preg_replace ( '/(?<=\saction=\")(?!http:)(.*?)(?=\"\s)/e', 'search(\$url, \\1)', $str );

echo $str;
}

function search($url, $match){
return $url . '/' . $match;
}

帶斷言的正則匹配

 

$match = '';
$str = 'xxxxxx.com.cn bold font
paragraph text

';
preg_match_all ( '/(?<=<(\w{1})>).*(?=<\/\1>)/', $str, $match );
echo "
匹配沒有屬性的HTML標簽中的內容:";
print_r ( $match );

替換HTML源碼中的地址

 

$form_html = preg_replace ( '/(?<=\saction=\"|\ssrc=\"|\shref=\")(?!http:|javascript)(.*?)(?=\"\s)/e', 'add_url(\$url, \'\\1\')', $form_html );

最后,正則工具雖然強大,但是從效率和編寫時間上來講,有的時候可能沒有explode來的更直接,對于一些緊急或者要求不高的任務,簡單、粗暴的方法也許更好。

 

 后向引用

 

使用小括號指定一個子表達式后,匹配這個子表達式的文本可以在表達式或其它程序中作進一步的處理。默認情況下,每個分組會自動擁有一個組號,規則是:從左向右,以分組的左括號為標志,第一個出現的分組的組號為1,第二個為2,以此類推。

后向引用用于重復搜索前面某個分組匹配的文本。例如,\1代表分組1匹配的文本。難以理解?請看示例:

\b(\w+)\b\s+\1\b可以用來匹配重復的單詞,像go go, kitty kitty。首先是一個單詞,也就是單詞開始處和結束處之間的多于一個的字母或數字(\b(\w+)\b),然后是1個或幾個空白符(\s+,最后是前面匹配的那個單詞(\1)

你也可以自己指定子表達式的組號或組名。要指定一個子表達式的組名,請使用這樣的語法:(?<Word>\w+),這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的內容,你可以使用\k<Word>,所以上一個例子也可以寫成這樣:\b(?<Word>\w+)\b\s*\k<Word>\b

使用小括號的時候,還有很多特定用途的語法。下面列出了最常用的一些:

4.分組語法捕獲(exp)匹配exp,并捕獲文本到自動命名的組里(?<name>exp)匹配exp,并捕獲文本到名稱為name的組里,也可以寫成(?'name'exp)(?:exp)匹配exp,不捕獲匹配的文本位置指定(?=exp)匹配exp前面的位置(?<=exp)匹配exp后面的位置(?!exp)匹配后面跟的不是exp的位置(?<!exp)匹配前面不是exp的位置注釋(?#comment)這種類型的組不對正則表達式的處理產生任何影響,只是為了提供讓人閱讀注釋我們已經討論了前兩種語法。第三個(?:exp)不會改變正則表達式的處理方式,只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組里面。

 

位置指定

 

接下來的四個用于查找在某些內容(但并不包括這些內容)之前或之后的東西,也就是說它們用于指定一個位置,就像\b,^,$那樣,因此它們也被稱為零寬斷言。最好還是拿例子來說明吧:

(?=exp)也叫零寬先行斷言,它匹配文本中的某些位置,這些位置的后面能匹配給定的后綴exp。比如\b\w+(?=ing\b),匹配以ing結尾的單詞的前面部分(除了ing以外的部分),如果在查找I'm singing while you're dancing.時,它會匹配singdanc

(?<=exp)也叫零寬后行斷言,它匹配文本中的某些位置,這些位置的前面能給定的前綴匹配exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的后半部分(除了re以外的部分),例如在查找reading a book時,它匹配ading

假如你想要給一個很長的數字中每三位間加一個逗號(當然是從右邊加起了),你可以這樣查找需要在前面和里面添加逗號的部分:((?<=\d)\d{3})*\b。請仔細分析這個表達式,它可能不像你第一眼看出來的那么簡單。

下面這個例子同時使用了前綴和后綴:(?<=\s)\d+(?=\s)匹配以空白符間隔的數字(再次強調,不包括這些空白符)

 

負向位置指定

 

前面我們提到過怎么查找不是某個字符或不在某個字符類里的字符的方法(反義)。但是如果我們只是想要確保某個字符沒有出現,但并不想去匹配它時怎么辦?例如,如果我們想查找這樣的單詞--它里面出現了字母q,但是q后面跟的不是字母u,我們可以嘗試這樣:

\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳,直接就觀察出來了),你會發現,如果q出現在單詞的結尾的話,像Iraq,Benq,這個表達式就會出錯。這是因為[^u]總是匹配一個字符,所以如果q是單詞的最后一個字符的話,后面的[^u]將會匹配q后面的單詞分隔符(可能是空格,或者是句號或其它的什么),后面的\w+\b將會匹配下一個單詞,于是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向位置指定能解決這樣的問題,因為它只匹配一個位置,并不消費任何字符。現在,我們可以這樣來解決這個問題:\b\w*q(?!u)\w*\b

零寬負向先行斷言(?!exp),只會匹配后綴exp不存在的位置。\d{3}(?!\d)匹配三位數字,而且這三位數字的后面不能是數字。

同理,我們可以用(?<!exp),零寬負向后行斷言來查找前綴exp不存在的位置:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數字(實驗時發現錯誤?注意你的區分大小寫先項是否選中)

一個更復雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標簽內里的內容。(<?(\w+)>)指定了這樣的前綴:被尖括號括起來的單詞(比如可能是<b>),然后是.*(任意的字符串),最后是一個后綴(?=<\/\1>)。注意后綴里的\/,它用到了前面提過的字符轉義;\1則是一個反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內容,這樣如果前綴實際上是<b>的話,后綴就是</b>了。整個表達式匹配的是<b></b>之間的內容(再次提醒,不包括前綴和后綴本身)

 

貪婪與懶惰

 

當正則表達式中包含能接受重復的限定符(指定數量的代碼,例如*,{5,12})時,通常的行為是(在使整個表達式能得到匹配的前提下)匹配盡可能多的字符。考慮這個表達式:a.*b,它將會匹配最長的以a開始,以b結束的字符串。如果用它來搜索aabab的話,它會匹配整個字符串aabab。這被稱為貪婪匹配。

有時,我們更需要懶惰匹配,也就是匹配盡可能少的字符。前面給出的限定符都可以被轉化為懶惰匹配模式,只要在它后面加上一個問號?。這樣.*?就意味著匹配任意數量的重復,但是在能使整個匹配成功的前提下使用最少的重復。現在看看懶惰版的例子吧:

a.*?b匹配最短的,以a開始,以b結束的字符串。如果把它應用于aabab的話,它會匹配aabab(為什么第一個匹配是aab而不是ab?簡單地說,最先開始的區配最有最大的優先權——The Match That Begins Earliest Wins)。

5.懶惰限定符*?重復任意次,但盡可能少重復+?重復1次或更多次,但盡可能少重復??重復0次或1次,但盡可能少重復{n,m}?重復nm次,但盡可能少重復{n,}?重復n次以上,但盡可能少重復

 

平衡組

 

如果想要匹配可嵌套的層次性結構的話,就得使用平衡組了。舉個例子吧,如何把“xx <aa <bbb> <bbb> aa> yy”這樣的字符串里,最長的括號內的內容捕獲出來?

這里需要用到以下的語法構造:

(?<group>) 把捕獲的內容命名為group,并壓入堆棧

(?<-group>) 從堆棧上彈出最后壓入堆棧的名為group的捕獲內容,如果堆棧本來為空,則本分組的匹配失敗

(?(group)yes|no) 如果堆棧上存在以名為group的捕獲內容的話,繼續匹配yes部分的表達式,否則繼續匹配no部分

(?!) 零寬負向先行斷言,由于沒有后綴表達式,試圖匹配總是失敗

如果你不是一個程序員(或者你是一個對堆棧的概念不熟的程序員),你就這樣理解上面的三種語法吧:第一個就是在黑板上寫一個(或再寫一個)"group",第二個就是從黑板上擦掉一個"group",第三個就是看黑板上寫的還有沒有"group",如果有就繼續匹配yes部分,否則就匹配no部分。

我們需要做的是每碰到了左括號,就在黑板上寫一個"group",每碰到一個右括號,就擦掉一個,到了最后就看看黑板上還有沒有-如果有那就證明左括號比右括號多,那匹配就應該失敗(為了能看得更清楚一點,我用了(?'group')的語法):

<                                                        #最外層的左括號

    [^<>]*                                             #最外層的左括號后面的不是括號的內容

    (        (            (?'Open'<)            #碰到了左括號,在黑板上寫一個"Open"

           [^<>>]*                                 #匹配左括號后面的不是括號的內容

        )+        (            (?'-Open'>)   #碰到了右括號,擦掉一個"Open"

            [^<>]*                                 #匹配右括號后面不是括號的內容

        )+    )*    (?(Open)(?!))         #在遇到最外層的右括號前面,判斷黑板上還有沒有沒擦掉的"Open";如果還有,則匹配失敗

>                                                  #最外層的右括號

 

posted on 2011-09-02 19:10 肥仔 閱讀(9167) 評論(0)  編輯 收藏 引用 所屬分類: 正則表達式

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久影院午夜论| 欧美一区二区三区视频| 欧美日韩免费在线| 欧美激情影院| 欧美午夜激情视频| 欧美色另类天堂2015| 欧美性一区二区| 国产精品网站在线| 国产日韩欧美亚洲一区| 韩国成人理伦片免费播放| 国内伊人久久久久久网站视频| 国产一区二区三区久久悠悠色av| 国内精品伊人久久久久av影院| 亚洲成人资源| 夜久久久久久| 欧美一区二区高清| 欧美在线一二三| 欧美第一黄色网| 一片黄亚洲嫩模| 久久精品五月婷婷| 欧美伦理91| 国内精品视频在线观看| 亚洲精品视频在线观看网站| 亚洲欧美成人精品| 女女同性精品视频| 国产精品99久久久久久久久| 夜夜嗨av一区二区三区四季av| 伊人久久综合| 国产精品久久久99| 在线精品视频在线观看高清 | 国产亚洲视频在线| 亚洲国产另类精品专区| 亚洲一区欧美激情| 久久夜色精品亚洲噜噜国产mv| 最新中文字幕一区二区三区| 一本色道久久综合亚洲精品不| 午夜精品剧场| 欧美日韩视频一区二区三区| 狠狠做深爱婷婷久久综合一区| 一区二区三区偷拍| 麻豆亚洲精品| 亚洲你懂的在线视频| 欧美精品一区二区三| 一区二区视频免费完整版观看| 亚洲综合电影一区二区三区| 欧美大胆成人| 久久婷婷人人澡人人喊人人爽| 国产精品女人久久久久久| 99re在线精品| 亚洲电影第1页| 久久综合给合久久狠狠色| 国产日韩亚洲欧美精品| 亚洲欧美日韩在线| 9色精品在线| 欧美日韩国产二区| 一本色道久久综合狠狠躁的推荐| 欧美黄色免费| 欧美成人乱码一区二区三区| 亚洲第一福利视频| 免费观看亚洲视频大全| 欧美在线视频不卡| 国内自拍亚洲| 久久久亚洲国产天美传媒修理工| 午夜免费电影一区在线观看| 欧美日韩国产综合网| 日韩亚洲欧美一区| 亚洲精品欧美日韩| 国产精品高潮呻吟| 欧美一区二区视频免费观看| 亚洲影院在线| 极品尤物一区二区三区| 欧美成ee人免费视频| 久热re这里精品视频在线6| 136国产福利精品导航网址应用 | 亚洲视频免费在线| 国产精品久久久久久久久久直播| 一区二区三区欧美激情| 一本色道久久综合一区| 亚洲精选国产| 亚洲欧洲一级| 国产精品一区二区久久国产| 欧美激情1区2区| 日韩视频一区二区三区在线播放免费观看 | 亚洲日本理论电影| 亚洲日本一区二区| 欧美日韩123| 香蕉成人啪国产精品视频综合网| 午夜精品一区二区三区电影天堂| 国产一区二区三区免费在线观看| 久久亚洲一区二区三区四区| 久久综合色影院| 一区二区三区偷拍| 午夜日韩视频| 亚洲精品久久久久久久久| 一本大道久久a久久精二百| 国产精品婷婷| 亚洲激情小视频| 国产欧美精品va在线观看| 欧美高清视频一区| 欧美视频手机在线| 美女视频黄a大片欧美| 欧美日韩精品在线播放| 久久精品99无色码中文字幕| 欧美14一18处毛片| 欧美一区二区黄色| 久热成人在线视频| 欧美亚洲自偷自偷| 欧美国产激情二区三区| 久久国产精品亚洲va麻豆| 欧美不卡高清| 久久婷婷一区| 国产精品成人av性教育| 免费看亚洲片| 国产欧美一区二区精品性色| 亚洲精品国产欧美| 精品av久久707| 亚洲视频在线观看一区| 亚洲免费av片| 久久频这里精品99香蕉| 久久精彩视频| 国产精品乱人伦中文| 亚洲精品在线视频| 亚洲日本电影在线| 久久精品盗摄| 久久久久久尹人网香蕉| 国产精品社区| 一本久久a久久精品亚洲| 亚洲精品欧美日韩专区| 久久只精品国产| 欧美1区视频| 在线精品视频一区二区三四| 久久成人av少妇免费| 午夜日韩电影| 国产精品视频免费一区| 亚洲自拍偷拍视频| 午夜亚洲伦理| 国产精品日韩一区二区| 亚洲午夜在线| 久久综合色影院| 黄色国产精品一区二区三区| 亚洲小视频在线观看| 亚洲综合色自拍一区| 欧美日韩国产一区精品一区| 亚洲经典自拍| 一区二区日韩欧美| 欧美亚州韩日在线看免费版国语版| 亚洲日韩视频| 亚洲午夜极品| 国产欧美一区二区精品秋霞影院| 性欧美1819性猛交| 国产深夜精品| 久久天天躁狠狠躁夜夜av| 欧美xart系列高清| 亚洲精品国产拍免费91在线| 欧美激情在线| 亚洲图片欧洲图片日韩av| 久久国产66| 在线观看免费视频综合| 欧美成人国产va精品日本一级| 亚洲免费成人av| 亚洲精品麻豆| 午夜视频在线观看一区二区三区| 午夜在线一区| 国产日韩欧美一区在线 | 欧美专区在线播放| 国产精品系列在线播放| 亚洲一区中文字幕在线观看| av不卡在线观看| 国产精品久久一区二区三区| 午夜精品国产更新| 久久精品国产69国产精品亚洲| 在线观看欧美精品| 亚洲国产精品视频一区| 欧美色一级片| 国产一区二区欧美| 午夜欧美理论片| 久久福利视频导航| 日韩视频国产视频| 国产精品美女www爽爽爽| 欧美一区二区三区视频在线观看| 欧美不卡视频| 性色一区二区三区| 久久久蜜桃精品| 亚洲网站在线播放| 亚洲高清精品中出| 国产精品欧美一区喷水| 欧美激情bt| 久久精品成人欧美大片古装| 99视频精品在线| 亚洲第一色中文字幕| 久久激情久久| 亚洲免费在线视频| 99re66热这里只有精品4| 欧美在线日韩精品| 欧美日韩伦理在线| 久久久精品国产免大香伊 | 国产精品日日摸夜夜摸av| 久久综合精品一区| 欧美在线啊v一区| 亚洲一区二区三区三|