• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            教程精選:正則表達式快速入門(四)

            作者: 開心石頭

              在上一篇文章里,我們介紹了正則表達式中斷言相關的一些概念,在本文里,我們會介紹正則表達式中遞歸的運用與利用正則表達式修改目標字符串。

              正則表達式中的遞歸

              接觸過程序的朋友可能都遇到過成對的各種括號吧,這些括號常常相互嵌套,而且嵌套的層次數目無法確定。試想一下如果想提取一段程序里用括號括起的一段代碼,這里面很可能包含了層次數目不定的其它括號對,用正則表達式該如何完成?

              在Perl 5.6之前這的確有點困難,不過從Perl 5.6之后,引入了遞歸正則表達式,這個問題得到了解決。通常在正則表達式里用“(?R)”表示一個對自己的引用,下面讓我們看看用什么正則表達式來解決剛才提出的問題。

            /\( ( (?>[^()]+) | (?R) )* \)/x

              現在讓我們來分析這個模式的含義,這里使用了“x”模式修正符,以便可以在模式中加入空格以方便閱讀。

              模式的開頭是匹配第一個左圓括號,然后我們需要捕獲的子模式,注意,字模式后面跟了量詞“*”,表示此模式可以重復0到多次。最后是一個結束圓括號。現在我們分析子模式( (?>[^()]+) | (?R) )的內容。這是一個分支子模式,表示模式可以有兩種情況,第一種是(?>[^()]+),這是一個一次性子模式,代表一個以上的非括號字符,另一種情況是| (?R),也即對正則表達式自己的遞歸調用——\( ( (?>[^()]+) | (?R) )* \),又尋找一個左圓括號,開始查找一對嵌套的圓括號包含的內容。

              分析到這里,這個正則表達式的含義已經基本清楚,但你注意到沒有,這里為什么要使用一次性子模式(?>[^()]+)來查找非括號字符串?

              事實上,由于遞歸的層次是無限的,這種處理非常必要,特別是遇到不匹配的字符串時,它不會讓你陷入長時間的等待。考慮一下下面這個目標字符串,

              (aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa()

              在得出不匹配的最終結果前,如果不使用一次性子模式,解析器將嘗試每一種可能的方法來分割目標字符串,這將浪費大量的時間。

              用正則表達式修改目標

              并非所有的正則表達式工具都允許你修改目標字符串,它們中的一些僅僅使用正則表達式來查找匹配指定模式的字符串,在Linux中,最為廣泛使用的支持正則表達式的工具就是grep命令,這是一個專門用來查找的工具,再就是一些文本編輯器工具,它們有的允許使用正則表達式替換,有的則不允許,這需要查看你使用的工具的在線手冊。

              對于那些允許你使用正則表達式來修改目標字符串的工具中,它們之間的一些不同你必然放在心上:

              這些不同首先表現在替換的具體形式上,有的是以對話框的形式分別讓你輸入需要查找的模式和被替換的內容,有些則使用命令使界面通過定界符來分隔匹配的模式與需要替換的內容,對于一些編程語言工具,它們通常通過函數的不同參數來分別定義需要匹配的模式與替換的內容。

              另一個需要注意的不同是這些工具具體修改的對象。大多數基于Linux的命令行工具一般是通過標準輸出或者管道來修改緩存的內容而非直接修改磁盤上存儲的文件,而文本編輯器工具或編程語言通常會直接修改目標文件。

              我們下面用Linux下sed命令的格式來舉幾個正則表達式的例子:

              模式:s/cat/dog/g

              輸入:wild dogs, bobcats, lions, and other wild cats

              輸出:wild dogs, bobdogs, lions, and other wild dogs

              模式:s/[a-z]+i[a-z]*/nice/g

              輸入:wild dogs, bobcats, lions, and other wild cats

              輸出: nice dogs, bobcats, nice, and other nice cats

              當我們使用模式進行替換操作時,目標字符串中所有匹配模式的字符串都將被替換。

              下面再舉一個使用逆向引用進行替換的例子:

              模式:s/([A-Z])([0-9]{2,4}) /\2:\1 /g

              輸入: A37 B4 C107 D54112 E1103 XXX

              輸出: 37:A B4 107:C D54112 1103:E XXX

              前面已經介紹過默認情況下的匹配一般是greedy的,這常會使實際匹配的部分大于你希望匹配的內容,特別是在進行替換操作時這將更加危險,因為如果你在錯誤匹配的情況下執行了一次替換操作,實際上你是刪除了目標中的有效內容,特別是當這種操作面向文件時造成的危害就更大了。因此,牢記一個不嚴格的字符類加上一個不嚴格的量詞足以造成不可挽回的后果,執行類似操作前一定要多測試一下不同的目標字符串,盡可能避免這種情況的發生。

              在本教程的下一篇文章里,我們會介紹一款可以方便進行正則表達式學習的工具和一些正則表達式編寫的思路。

            posted on 2007-04-22 17:19 PeakGao 閱讀(219) 評論(0)  編輯 收藏 引用

            <2007年4月>
            25262728293031
            1234567
            891011121314
            15161718192021
            22232425262728
            293012345

            導航

            統計

            常用鏈接

            留言簿(9)

            隨筆分類(67)

            隨筆檔案(65)

            搜索

            最新評論

            閱讀排行榜

            評論排行榜

            99久久人妻无码精品系列蜜桃| 91麻豆精品国产91久久久久久| 无码任你躁久久久久久老妇App| 亚洲国产精品成人久久蜜臀| 亚洲精品视频久久久| 狠狠色狠狠色综合久久| 国产产无码乱码精品久久鸭| 久久精品无码av| 久久婷婷成人综合色综合| 国产精品99久久久久久董美香| 亚洲精品第一综合99久久| 久久综合给久久狠狠97色| 国产精品亚洲综合专区片高清久久久| 中文精品久久久久人妻| 欧美伊香蕉久久综合类网站| 日韩久久久久中文字幕人妻| 久久香蕉国产线看观看精品yw| 国内精品久久久久久麻豆| 久久天天躁狠狠躁夜夜avapp| 日产久久强奸免费的看| 久久久久久亚洲精品成人| 亚洲美日韩Av中文字幕无码久久久妻妇 | 观看 国产综合久久久久鬼色 欧美 亚洲 一区二区 | 久久精品成人欧美大片| 国产午夜精品久久久久九九电影 | 久久免费的精品国产V∧| 色天使久久综合网天天| 亚洲国产成人久久综合碰碰动漫3d | 国内精品久久久久久久coent| www.久久99| 国产成人久久激情91| 天天爽天天狠久久久综合麻豆| 久久久www免费人成精品| 人妻少妇精品久久| 国内精品伊人久久久久妇| 午夜精品久久久久9999高清| 大香网伊人久久综合网2020| 久久综合中文字幕| 久久国产成人亚洲精品影院| 99久久精品免费观看国产| 国产AV影片久久久久久|