• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆-341  評論-2670  文章-0  trackbacks-0
                有個同學(xué)近來一直在做一個魔獸世界戰(zhàn)況分析(名字好像叫DeusCraft),說是很火。只是用C#覺得不是很爽,想移植到C++上面來。但是那個東西在分析的時候用了好多正則表達(dá)式,于是只好找了些正則表達(dá)式引擎來測。

                測試的文件一共有27萬多行,首先通過一個檢查時間的正則表達(dá)式。如果成功,則在接下來的20幾條正則表達(dá)式中驗證字符串命中哪一條,然后開始做剩余的工作。原先在C#上花了12秒分析,后來換了boost的正則表達(dá)式花費40秒,然后從MSR上找了一個號稱比boost快4倍的正則表達(dá)式引擎,結(jié)果還是40秒(都是微軟的,咋差距這么大……)。于是同學(xué)用他自己做的正則表達(dá)式引擎花了23秒(此數(shù)據(jù)不太記得),我用我以前那個東西花費108秒(-_-|||)。

                于是我們這幾天就在優(yōu)化正則表達(dá)式引擎,到了今天同學(xué)那個花費13秒,我那個12秒。Visual Studio 2008 Team System上有一個Performance Wizard,用于在程序執(zhí)行的過程中統(tǒng)計各個函數(shù)所占用的時間,可以方便定位,看出效率瓶頸,非常好用。

                我之前的正則表達(dá)式為了保持很多語法上的一致性(譬如選擇操作符“|”需要遵守交換律等等),使用了一種花費很大的辦法來對字符串進(jìn)行分析。這種分析方法找出所有符合正則表達(dá)式要求的所有匹配的路徑然后進(jìn)行篩選。篩選的過程中浪費了很多new和delete的操作,而且做了很多計算,維護(hù)了一個非常復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。后來想到有些事情是可以讓人來操心的,于是在原來的接口上加了一個option,添加了一種叫做“貪婪式”的分析方法。現(xiàn)在就同時有兩種分析方法用了。第二種分析方法的優(yōu)點是快,缺點是喪失了一些語法上的優(yōu)美(不過這個對于大部分人來說應(yīng)該是沒什么關(guān)系的了。要是正則表達(dá)式的執(zhí)行過程不復(fù)雜的話,《精通正則表達(dá)式》也就賣不出去了,反正別人的正則表達(dá)式大多都是貪婪的)。貪婪式的分析方法不同時掃描所有路徑,而是使用回溯的方法。不過這種方法最大的優(yōu)點在于數(shù)據(jù)結(jié)構(gòu)可以大幅度簡化為三個堆棧(NFA狀態(tài)、已捕獲子串、捕獲狀態(tài)),從而大量減少包括申請和釋放等的指針操作。

                上文中的測試是在同學(xué)他自己進(jìn)行的。我在我自己的電腦上使用了一條表達(dá)式(而不是20幾條)來跑相同的文件,非貪婪式用了23秒,貪婪式用了3.5秒。

                雖然這個正則表達(dá)式引擎的接口跟現(xiàn)在C#或Java流行的那些差不多,只是這東西屬于Syngram的一部分,所以不是很想單獨分隔成一個dll發(fā)布。至于代碼就要等Vczh Free Script 3.0或者Vczh Lazy Script 1.0發(fā)布的時候再一起開放了,因為使用Syngram做編譯器是很爽的。到時候再考慮如何將正則表達(dá)式和上下文無關(guān)文法兩個強(qiáng)大的字符串分析庫封裝成dll用吧。嘿嘿。
            posted on 2008-05-07 05:21 陳梓瀚(vczh) 閱讀(15453) 評論(21)  編輯 收藏 引用 所屬分類: C++

            評論:
            # re: 正則表達(dá)式——一點小插曲 2008-05-07 19:19 | xiaolige
            你自己寫的那個功能有boost的全嗎,能夠全面實現(xiàn)boost.regex功能并且性能上超越它這么多就很厲害了  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-07 20:13 | 空明流轉(zhuǎn)
            現(xiàn)在MSR的不一定有boost好了,你用的是regex還是xpressive的那個,我都分不清有什么區(qū)別,囧  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-07 20:39 | Fox
            正要看看正則表達(dá)式,不妨寫詳細(xì)點,參考一下:D  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-07 21:39 | eXile
            boost::xpressive有兩種使用方式, 一種就是和boost::regex一樣的動態(tài)解析,一種是靜態(tài)解析,類似于boost::spirit .
            如果你使用的正則式是硬編碼的字符串(大多數(shù)情況下都是如此), 那么使用 xpressive的靜態(tài)解析具有更高的效率, 因為它的解析模板是在編譯期生成的.  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-08 05:10 | 陳梓瀚(vczh)
            boost::regex不能命名捕獲,只能匿名捕獲,我的可以,這是功能上的唯一區(qū)別。其他的特性我全有。畢竟是參考過他和.net兩邊的語法然后自己改了一下的。

            至于spirit,那個不是正則表達(dá)式,是上下文無關(guān)文法。這個就是另外一個問題了。我那套syngram有一個東西是用來處理上下文無關(guān)文法的,這兩個我還沒比。不過以前的spirit是不能處理左遞歸的,不知道現(xiàn)在的行不行。

            不過xpressive寫的正則表達(dá)式在boost的主頁上號稱快了15%,估計有所限制。把文本的正則表達(dá)式換成那種直接寫代碼的東西,本質(zhì)上并沒有改變什么。因為狀態(tài)機(jī)還是狀態(tài)機(jī),操作符重載是不可能靜態(tài)編譯的,只有直接用模板才行。這樣的話會變成類似
            seq_p<
            ch_p<'a'>,
            opt_p<
            ch_p<'b'>,
            ch_p<'c'>
            >
            >
            的,用于表達(dá)a(b|c)。這種形式才有可能達(dá)到編譯器編譯出分析字符串的代碼。  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-09 06:20 | 路人甲
            不知天高地厚,你和你同學(xué)竟然都超過了regex,真是太有才了
              回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-09 06:24 | 路人甲
            原先在C#上花了12秒分析,后來換了boost的正則表達(dá)式花費40秒,然后從MSR上找了一個號稱比boost快4倍的正則表達(dá)式引擎,結(jié)果還是40秒(都是微軟的,咋差距這么大……)。
            =======================
            C++比C#慢這么多,差距怎么這么大啊,為什么C++比C#慢這么多啊?哦,原來使用者是頭豬喲  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-09 07:27 | eXile
            @陳梓瀚(vczh)
            你所寫的模板形式和xpressive的表達(dá)式模板并沒有太大的差別, 因為表達(dá)式模板最終生成的也是類似于這樣的東西.
            另外, 程序庫為了實現(xiàn)功能的全面性和通用性, 必然要損失一部分效率, 樓上的對此也不用大驚小怪, 還是要注意素質(zhì).....
              回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-09 09:40 | 陳梓瀚(vczh)
            @路人甲
            C#的正則表達(dá)式也是C++寫的,謝謝合作。
            至于速度問題,好像沒人規(guī)定我就不能比boost做得好吧。

            不過路人甲想必是沒有寫過正則表達(dá)式引擎了。在測試的過程中,瓶頸不在分析,而在于分析完了之后產(chǎn)生的數(shù)據(jù)結(jié)構(gòu)。正則表達(dá)式分析字符串的過程本身是很快的,分析完了制造那些數(shù)據(jù)出來給你用的時候,就會消耗大量的時間。明白?不過話說回來,我那個庫是沒有用到stl的。  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-11 19:53 | 胡人
            鼓勵原創(chuàng),鼓勵創(chuàng)新,鼓勵提高,一個字,好!
            期待能早些見到東西,而不是一些有點自吹自擂的數(shù)據(jù)!
              回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-11 21:45 | 陳梓瀚(vczh)
            東西不能著急。做是做出來了。改進(jìn)前的代碼其實已經(jīng)發(fā)布了,改進(jìn)后的還沒有。只是以前沒做廣告到大家不知道罷了。現(xiàn)在還不拿出來的原因有三:

            1:沒充分測試。因為平時還要上課做作業(yè)。
            2:我用的庫是我自己開發(fā)的,沒有stl,跟大家的代碼要接上不是那么容易。所以就算看到了,也就只能看。想用的話還得再花一些功夫。因為這個正則表達(dá)式當(dāng)初只是想給自己用的。
            3:正則表達(dá)式隸屬于我自己的那套文法工具,按照計劃是在下一個編譯器發(fā)布的時候一起給出來。  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-11 22:03 | 空明流轉(zhuǎn)
            鄙視造車輪啊造車輪。。。  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-24 07:04 | missdeer
            我有一個項目里用MSR的greta全文匹配5種模式,一個3萬行的文件,占用CPU99%可能要1分鐘左右。最近發(fā)現(xiàn),用lex和yacc來做,達(dá)到同樣的效果,可能不會超過3秒鐘。正則表達(dá)式要用好,還是很有文章可作的。  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2008-05-24 09:10 | 陳梓瀚(vczh)
            當(dāng)然,你用lex生成代碼,是不能動態(tài)修改的。當(dāng)然快了。  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2009-03-20 02:20 | 林林
            不知到能不能把你的測試數(shù)據(jù)與程序公布一下,不用提供正則庫的源碼
            我也寫了一個,想比較一下?  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2009-03-20 02:54 | 陳梓瀚(vczh)
            那個在舊電腦里面,而且是一個100多M的文本文件……你去比較C#那個吧,我的速度是它的96%(比率較穩(wěn)定)  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2009-03-22 01:38 | 白開水
            LSS的,你把一份C文件,用gcc -E 跑一次后,在粘貼個幾十次,基本就OK了  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2009-03-24 08:29 | wow
            @路人甲
            毫無水準(zhǔn)  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2010-07-27 17:57 | 路人癸
            要鼓勵~而不是諷刺~支持國產(chǎn)~打到小日本~  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2010-09-02 00:45 | yoco
            @路人甲

            boost::regex 的效能本來就是慢的,這是常識。

            切莫妄自菲薄,您自己實現(xiàn)一個,效能也是有可能比 boost::regex 好的。  回復(fù)  更多評論
              
            # re: 正則表達(dá)式——一點小插曲 2016-08-03 11:24 | Bread
            明天開工。
            來踩一下輪子哥的腳印。  回復(fù)  更多評論
              
            午夜精品久久久内射近拍高清 | 久久综合色之久久综合| 国产香蕉97碰碰久久人人| 色99久久久久高潮综合影院| 尹人香蕉久久99天天拍| 久久久综合九色合综国产| 欧美日韩久久中文字幕| 久久精品夜色噜噜亚洲A∨| 久久99热国产这有精品| 久久超碰97人人做人人爱| 久久久午夜精品| 久久久WWW成人免费毛片| 亚洲国产精品一区二区久久hs| 老司机午夜网站国内精品久久久久久久久 | 久久人人爽人人爽人人片av麻烦 | 色偷偷久久一区二区三区| 婷婷久久综合九色综合98| 久久久久久久免费视频| 久久ww精品w免费人成| 久久免费大片| 精品久久久久久无码免费| WWW婷婷AV久久久影片| a高清免费毛片久久| 精品久久777| 久久精品国产亚洲精品2020| 久久精品成人欧美大片| 久久久久亚洲?V成人无码| 88久久精品无码一区二区毛片| 久久久久久午夜成人影院| 久久青青草原亚洲av无码app| 午夜精品久久久久久影视riav| 久久天天躁狠狠躁夜夜2020 | 久久久久人妻一区二区三区vr| 精品无码久久久久久久久久| 久久久久久亚洲精品成人| 久久亚洲私人国产精品vA | 国产午夜福利精品久久2021 | 久久99久久99小草精品免视看| 九九精品99久久久香蕉| 久久99国产精品久久99| 久久亚洲精品中文字幕三区|