loop_in_codes

低調做技術__歡迎移步我的獨立博客 codemaro.com 微博 kevinlynx

統計

隨筆 - 119
文章 - 0
評論 - 667
引用 - 0

公告

常用鏈接

留言簿(52)

隨筆分類

隨筆檔案

收藏夾

Network Programming(4) (rss)

C++

關注的開源項目

其他關注

fox (rss)
云風

網絡編程

服務器開發 (rss)

我的項目

edge2d
2d游戲引擎 some years before
klcommon
自己的雜亂代碼/資料收集
Lisp開發的博客系統
用Lisp開發的博客系統
luaFeiq
兼容飛秋協議的局域網IM
我的Github (rss)
業余Java/Android
Android
曾經做的小游戲
瘋狂的過去

搜索

積分與排名

積分 - 896064
排名 - 16

閱讀排行榜

評論排行榜

簡要實現正則表達式匹配字符串

之所以說是“簡要實現”一方面是因為算法不算高深，算法的實現也不精致，甚至連我對其的理解也不夠本質。

我只不過不想在工作若干年后還是一個只會打字的程序員。學點什么東西，真正精通點什么東西才對得起喜歡

技術的自己。

附件中的代碼粗略實現了《編譯原理》龍書中的幾個算法。包括解析正則表達式，建立NFA，然后用NFA去匹

配目標字符串；或者從NFA建立DFA，然后匹配。解析正則表達式我用了比較繁瑣的方法，有詞法和語法分析

過程。詞法分析階段將字符和一些操作符整理出來，語法分析階段在建立語法樹的過程中對應地建立NFA。

當然，因為語法樹在這里并沒有用處，所以并沒有真正地建立。

從正則表達式到NFA比較簡單，很多編譯原理書里都提到過，如：s|t表達式對應于下面的NFA:

代碼中用如下的結構描述狀態和狀態機中的轉換：

#define E_TOK (0)

/* transition */
struct tran
{
    char c;
    struct state *dest;
    struct tran *next;
};

struct state
{
    /* a list of transitions */
    struct tran *trans;
    /* inc when be linked */
    int ref;
};

即，每一個狀態都有一個轉換列表，每個轉換都有一個目標狀態（即該轉換指向的狀態）以及轉換字符。

貌似通過以上方法建立出來的狀態機每個狀態最多只會有2個轉換？

建立好NFA后，由NFA匹配目標字符串使用了一種構造子集法（《編譯原理》3.7.2節）：

這個算法里針對NFA的幾個操作，如e-closure、move等在由NFA轉換DFA時也被用到，因此代碼里單獨

做了封裝（state_oper.c）。這個算法本質上貌似就是一次步進（step）多個狀態。

至于由NFA轉DFA,則是相對簡單的子集構造法：

在我以前編譯原理課考試的前一天晚上（你懂的）我就對這些算法頗為疑惑。在以后看各種編譯

原理教材時，我始終不懂NFA是怎么轉到DFA的。就算懂了操作步驟（我大學同學曾告訴我這些步驟，雖然

不知道為什么要那樣做），一段時間后依然搞忘。很喜歡《編譯原理》龍書里對這個算法最本質的說明：

源代碼我是用GCC手工編譯的，連makefile也沒有。三個test_XXX.c文件分別測試幾個模塊。test_match.c

基本依賴除掉test外所有c文件，全部鏈接在一塊即可。當然，就經驗而言我知道是沒幾個人會去折騰我的這些

代碼的。這些在china的領導看來對工作有個鳥用的代碼讀起來我自己也覺得費力，何況，我還不倫不類地用了

不知道算哪個標準的c寫了這些。

你不是真想下載。對于這種代碼，有BUG是必然的，你也不用在此文若干個月后問我多少行是什么意思，因為

那個時候我也忘了:D。

posted on 2010-02-20 14:53 Kevin Lynx 閱讀(5868) 評論(4) 編輯收藏引用所屬分類: 編譯原理

只有注冊用戶登錄后才能發表評論。


相關文章: 基于棧的虛擬機的實現 [總結]中間/目標代碼生成 [總結]語法制導翻譯/語義分析 [總結]LL(1)分析法及其實現簡要實現正則表達式匹配字符串 kl中的錯誤處理 kl sample:貪食蛇實現一種解釋性腳本語言（七）實現一種解釋性腳本語言（六）實現一種解釋性腳本語言（五）

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

# re: 簡要實現正則表達式匹配字符串 2010-02-20 19:25 feizai

# re: 簡要實現正則表達式匹配字符串[未登錄] 2010-02-20 19:34 kevin lynx

# re: 簡要實現正則表達式匹配字符串 2010-02-21 02:19 aaa

# re: 簡要實現正則表達式匹配字符串 2010-02-24 21:19 陳梓瀚(vczh)

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品