因為接下去要做優化工作,在此之前,先做下簡單的性能測試。
比較的對象是std::regex,暫時只比較兩項:
1、解析正則表達式的速度
2、使用解析好的正則表達式去匹配字符串的速度。
測試代碼如下:
| SECTION_BEGIN(StdRegExParse100000); PERFORMANCE_TEST_BEGIN(StdRegExParse100000); for (int i = 0; i < 100000; ++i) { wregex r; r.assign(L"http://([a-zA-Z0-9\\-]+.)+[a-zA-Z]+/"); } PERFORMANCE_TEST_END(StdRegExParse100000); SECTION_END();
SECTION_BEGIN(xlRegExpParse100000); PERFORMANCE_TEST_BEGIN(xlRegExpParse100000); for (int i = 0; i < 100000; ++i) { RegExp r; r.Parse(L"http://([a-zA-Z0-9\\-]+.)+[a-zA-Z]+/"); } PERFORMANCE_TEST_END(xlRegExpParse100000); SECTION_END();
SECTION_BEGIN(StdRegExMatch100000); { wregex r; r.assign(L"http://([a-zA-Z0-9\\-]+.)+[a-zA-Z]+/"); PERFORMANCE_TEST_BEGIN(StdRegExMatch100000); for (int i = 0; i < 100000; ++i) { regex_match(L"http://w-1.w-2.w-3.streamlet.org/", r); } PERFORMANCE_TEST_END(StdRegExMatch100000); } SECTION_END();
SECTION_BEGIN(xlRegExpMatch100000); { RegExp r; r.Parse(L"http://([a-zA-Z0-9\\-]+.)+[a-zA-Z]+/"); PERFORMANCE_TEST_BEGIN(xlRegExpMatch100000); for (int i = 0; i < 100000; ++i) { r.Match(L"http://w-1.w-2.w-3.streamlet.org/"); } PERFORMANCE_TEST_END(xlRegExpMatch100000); } SECTION_END(); |
前兩則是分別使用std::wregex和xl::RegExp解析"http://([a-zA-Z0-9\\-]+.)+[a-zA-Z]+/"十萬次,后兩則是拿來匹配http://w-1.w-2.w-3.streamlet.org/十萬次。
結果如下:
匹配速度差很多,解析速度差不多。
考慮到在解析“?”“+”“*”的時候,引入了很多ε邊,于是對那部分做點優化,去除不必要的ε邊和節點構造,然后再測試:
可以看到有所提高,但是解析速度還是跟std:wregex的差很多,匹配速度有明顯領先。目前只解析到ε邊、-NFA,如果再做狀態機轉化,雖然會提高匹配速度,可是解析速度會進一步下降。因此,一開始就要考慮使用一種更高效的狀態機存儲方法。
這兩天著涼生病了,好難受啊……


