青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆-163  評(píng)論-223  文章-30  trackbacks-0
   在開(kāi)發(fā)HTTP相關(guān)程序時(shí),經(jīng)常會(huì)碰到從網(wǎng)絡(luò)鏈接URL中提取協(xié)議名、服務(wù)器、路徑等目標(biāo)對(duì)象,如果使用C/C++字符串操作函數(shù),那么則顯得有點(diǎn)麻煩且代碼不易維護(hù),其實(shí)關(guān)于文本內(nèi)容的解析工作,都可優(yōu)先考慮使用正則表達(dá)式庫(kù)來(lái)解決處理,C++方面的正則庫(kù)也有很多種,如atl、pcre、boost。下面就使用boost中的regex來(lái)解析URL提取協(xié)議名、服務(wù)器、路徑為目標(biāo)說(shuō)明其用法。

協(xié)議名
   可有可無(wú),如果有時(shí)則后面必跟著://,如果沒(méi)有,則默認(rèn)為使用http協(xié)議。通常還有其它的協(xié)議如https、ssl、ftp、mailto等。因此匹配協(xié)議名的正則表達(dá)式應(yīng)該是(?:(mailto|ssh|ftp|https?)://)?,注意這個(gè)表達(dá)式本身捕獲了協(xié)議名,但不包括://。
   
服務(wù)器
   或是域名,如www.csdn.net;或是IP地址,如192.168.1.1,可帶端口號(hào),如192.168.1.1:8080。匹配域名的正則表達(dá)式為(?:[a-z0-9](?:[-a-z0-9]*[a-z0-9])?\.)+(?:com|net|edu|biz|gov|org|in(?:t|fo)|(?-i:[a-z][a-z])),表達(dá)式"(?:com|net|edu|biz|gov|org|in(?:t|fo)"匹配了com、net、edu、biz、gov、org、int、info等常見(jiàn)的域名,而(?-i:[a-z][a-z])匹配了國(guó)家代碼,而且只允許小寫(xiě)為合法的,如www.richcomm.com.cn。匹配IP要盡量精確,考慮到IP每部分應(yīng)為數(shù)字且范圍在0-255之間,因此表達(dá)式應(yīng)為(?:[01]?\d\d?|2[0-4]\d|25[0-5])\.(?:[01]?\d\d?|2[0-4]\d|25[0-5])\.(?:[01]?\d\d?|2[0-4]\d|25[0-5])\.(?:[01]?\d\d?|2[0-4]\d|25[0-5])。注意以上域名或IP的正則式本身不捕獲它們,這是為了留在后面作為整體捕獲。
   端口號(hào)的正則表達(dá)式為(?::(\d{1,5}))?,這里限制了端口號(hào)為1至5位的數(shù)字,更精確的匹配如要求在某范圍如[1024,65535]間則可參考以上IP正則模式。綜上所得,匹配服務(wù)器的正則表達(dá)式為((?:(?:[a-z0-9](?:[-a-z0-9]*[a-z0-9])?\.)+(?:com|net|edu|biz|gov|org|in(?:t|fo)|(?-i:[a-z][a-z]))|(?:[01]?\d\d?|2[0-4]\d|25[0-5])\.(?:[01]?\d\d?|2[0-4]\d|25[0-5])\.(?:[01]?\d\d?|2[0-4]\d|25[0-5])\.(?:[01]?\d\d?|2[0-4]\d|25[0-5])))(?::(\d{1,5}))?,這個(gè)正則式作為整體捕獲了域名或IP,及端口號(hào)(若有),如www.csdn.net,則得到www.csdn.net和空(沒(méi)有端口,http默認(rèn)為80,https默認(rèn)為443)子串;192.168.1.1:8080則得到192.168.1.1和8080子串。
   
路徑
   最簡(jiǎn)單的形式為(/.*)?,更精確的形式為/[^.!,?;"'<>()\[\]{}\s\x7F-\xFF]*(?:[.!,?]+[^.!,?;"'<>()\[\]{}\s\x7F-\xFF]+)*。
   
   以上所有正則表達(dá)式均為ascii字符集,對(duì)于unicode字符集則在其前加L即可。
   
   為方便使用,封裝成了兩個(gè)自由模板函數(shù),如下所示
 1template<typename charT>
 2inline bool boost_match(const charT* pattern,const charT* text,unsigned int flags=boost::regex::normal,boost::match_results<const charT*>* result=NULL)
 3{
 4    boost::basic_regex<charT,boost::regex_traits<charT> > expression(pattern,flags); 
 5    if(NULL==result)
 6        return boost::regex_match(text,expression);
 7    return boost::regex_match(text,*result,expression);
 8}

 9
10template<typename charT>
11inline bool boost_search(const charT* pattern,const charT* text,unsigned int flags=boost::regex::normal,boost::match_results<const charT*>* result=NULL)
12{
13    boost::basic_regex<charT,boost::regex_traits<charT> > expression(pattern,flags); 
14    if(NULL==result)
15        return boost::regex_search(text,expression);
16    return boost::regex_search(text,*result,expression);
17}
   
   測(cè)試示例如下      
 1static const string protocol = "(?:(mailto|ssh|ftp|https?)://)?";
 2static const string hostname = "(?:[a-z0-9](?:[-a-z0-9]*[a-z0-9])?\\.)+(?:com|net|edu|biz|gov|org|in(?:t|fo)|(?-i:[a-z][a-z]))";
 3static const string ip = "(?:[01]?\\d\\d?|2[0-4]\\d|25[0-5])\\.(?:[01]?\\d\\d?|2[0-4]\\d|25[0-5])\\.(?:[01]?\\d\\d?|2[0-4]\\d|25[0-5])\\.(?:[01]?\\d\\d?|2[0-4]\\d|25[0-5])";
 4static const string port = "(?::(\\d{1,5}))?";
 5static const string path = "(/.*)?";
 6static const string pattern = protocol + "((?:" + hostname + "|" + ip + "))" + port + path;
 7
 8int _tmain(int argc, _TCHAR* argv[])
 9{
10    using namespace boost;
11
12    //形式1: 帶協(xié)議名,服務(wù)器為名稱(chēng),不帶端口號(hào)
13    bool ret;
14    string text = "http://m.shnenglu.com/qinqing1984";
15    boost::cmatch what;
16    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
17    assert(ret);
18    assert(what[1].str()=="http");
19    assert(what[2].str()=="m.shnenglu.com");
20    assert(what[3].str()=="");
21    assert(what[4].str()=="/qinqing1984");
22
23    //形式2: 不帶協(xié)議名,服務(wù)器為名稱(chēng),帶端口號(hào)
24    text = "m.shnenglu.com:80/qinqing1984";
25    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
26    assert(ret);
27    assert(what[1].str()=="");
28    assert(what[2].str()=="m.shnenglu.com");
29    assert(what[3].str()=="80");
30    assert(what[4].str()=="/qinqing1984");
31
32    //形式3: 不帶協(xié)議名,服務(wù)器為名稱(chēng),不帶路徑
33    text = "m.shnenglu.com:80";
34    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
35    assert(ret);
36    assert(what[1].str()=="");
37    assert(what[2].str()=="m.shnenglu.com");
38    assert(what[3].str()=="80");
39    assert(what[4].str()=="");
40
41    //形式4: 協(xié)議為https,服務(wù)器為IP,帶端口號(hào)
42    text = "https://192.168.1.1:443/index.html";
43    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
44    assert(ret);
45    assert(what[1].str()=="https");
46    assert(what[2].str()=="192.168.1.1");
47    assert(what[3].str()=="443");
48    assert(what[4].str()=="/index.html");
49
50    //形式5: 端口超過(guò)5位數(shù)
51    text = "ftp://192.168.1.1:888888";
52    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
53    assert(!ret);
54
55    //形式6: 沒(méi)有協(xié)議名
56    text = "//192.168.1.1/index.html";
57    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
58    assert(!ret);
59
60    //形式7: 沒(méi)有服務(wù)器
61    text = "http:///index.html";
62    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
63    assert(!ret);
64
65    //形式8: 不合法的服務(wù)器
66    text = "cppblog/index.html";
67    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
68    assert(!ret);
69
70    return 0;
71}
   對(duì)URL的解析,因時(shí)間有限,本文所述不盡詳細(xì),只是略作分析,以點(diǎn)帶面,更多的精確匹配則依賴(lài)于實(shí)際的應(yīng)用需求。
posted on 2011-11-27 17:22 春秋十二月 閱讀(7978) 評(píng)論(5)  編輯 收藏 引用 所屬分類(lèi): Opensrc

評(píng)論:
# re: 使用boost regex解析URL 2011-11-27 23:08 | guest
最后一個(gè)是合法的,最常見(jiàn)的情況就是在在局域網(wǎng)內(nèi),有臺(tái)叫cppblog的機(jī)器,直接用cppblog訪問(wèn)。  回復(fù)  更多評(píng)論
  
# re: 使用boost regex解析URL 2011-11-28 08:57 | 萬(wàn)連文
如果程序僅限win平臺(tái),使用InternetCrackUrl;否則的話(huà)請(qǐng)移植chrome等開(kāi)源的解析,否則完備性不夠的話(huà),后面隱藏的BUG會(huì)讓你瘋狂。  回復(fù)  更多評(píng)論
  
# re: 使用boost regex解析URL 2011-11-28 09:29 | 春秋十二月
你說(shuō)的有道理,我明白@萬(wàn)連文
  回復(fù)  更多評(píng)論
  
# re: 使用正則表達(dá)式解析URL 2014-07-17 03:03 | lixubin
linux 下編譯能通過(guò),但是表達(dá)式好像有問(wèn)題

'boost::bad_expression'
what(): Invalid preceding regular expression
Aborted (core dumped)  回復(fù)  更多評(píng)論
  
# re: 使用正則表達(dá)式解析URL 2015-08-11 14:35 | mz
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            日韩视频一区二区在线观看| 午夜激情亚洲| 久久久免费精品| 激情成人av在线| 久久视频精品在线| 欧美在线免费观看| 好看不卡的中文字幕| 免费影视亚洲| 欧美国产大片| 99re热精品| 一区二区三区久久| 国产精品视频| 欧美专区日韩专区| 久久电影一区| 亚洲日本国产| 国产精品99久久99久久久二8| 国产精品福利av| 久久久国产精品亚洲一区| 久久久久久久性| 一本色道久久综合狠狠躁篇的优点 | 国内精品伊人久久久久av一坑 | 亚洲激情社区| 久久色在线播放| 久久久久久久尹人综合网亚洲| 在线精品视频一区二区三四| 亚洲黄色免费网站| 欧美三级在线视频| 久久深夜福利免费观看| 欧美激情综合在线| 久久久午夜精品| 欧美国产日韩一区| 亚洲自拍偷拍麻豆| 另类尿喷潮videofree| 亚洲午夜精品在线| 久久久久久成人| 亚洲专区一区| 女人色偷偷aa久久天堂| 亚洲欧美日韩一区二区在线| 久久中文字幕导航| 新片速递亚洲合集欧美合集| 免费在线成人| 久久久夜夜夜| 国产精品日产欧美久久久久| 亚洲大黄网站| 国产亚洲精品久久久| 日韩视频精品在线观看| 在线日韩欧美视频| 午夜精品一区二区三区在线| 亚洲精品字幕| 久久久精彩视频| 性欧美大战久久久久久久免费观看 | 亚洲激情av| 激情成人在线视频| 午夜精品久久久久久久白皮肤| 亚洲免费播放| 奶水喷射视频一区| 久久婷婷国产综合精品青草 | 久久久精品国产一区二区三区| 亚洲天堂av高清| 欧美精品成人一区二区在线观看 | 久久久噜噜噜久噜久久| 国产精品天天看| 99精品国产高清一区二区| 亚洲欧洲日本国产| 久久中文精品| 欧美激情日韩| 91久久久久久国产精品| 久久亚洲精品视频| 免费永久网站黄欧美| 在线观看欧美成人| 久久亚洲春色中文字幕| 蜜臀91精品一区二区三区| 韩国精品在线观看| 久久精品一本久久99精品| 久久久国产精品一区二区三区| 国产欧美一区二区视频| 欧美一区二区三区视频免费播放| 欧美一级淫片aaaaaaa视频| 国产精品腿扒开做爽爽爽挤奶网站| 亚洲毛片一区二区| 亚洲欧美日本日韩| 国产欧美日韩免费| 久久精品国产一区二区三区| 麻豆av一区二区三区| 亚洲高清不卡在线| 欧美gay视频激情| 日韩视频在线观看免费| 亚洲欧美成人网| 国产裸体写真av一区二区| 午夜精品亚洲| 免费视频一区二区三区在线观看| 亚洲国产99| 欧美日韩国产限制| 亚洲一区二区三区精品动漫| 久久久久久久久久久久久久一区 | 亚洲美女在线观看| 欧美日韩中国免费专区在线看| 在线亚洲欧美| 久久久久国产一区二区| 亚洲黄一区二区三区| 欧美视频中文字幕| 欧美一级免费视频| 亚洲国产一区在线| 欧美一区二区精美| 亚洲国产精彩中文乱码av在线播放| 欧美激情a∨在线视频播放| 亚洲香蕉视频| 欧美 日韩 国产 一区| 一区二区三区欧美成人| 国产日韩欧美亚洲| 欧美成人免费观看| 欧美亚洲一区二区三区| 亚洲国产欧美一区二区三区丁香婷| 亚洲欧美国产高清va在线播| 1000部精品久久久久久久久| 欧美视频中文一区二区三区在线观看| 欧美综合激情网| 日韩一区二区精品视频| 久久视频在线免费观看| 亚洲在线视频网站| 亚洲日本欧美日韩高观看| 国产精品久久久久aaaa| 欧美成人网在线| 欧美在线一区二区| 一本一道久久综合狠狠老精东影业| 久久综合色88| 香蕉久久精品日日躁夜夜躁| 亚洲美女精品一区| 亚洲电影av| 国产日韩在线播放| 国产精品久久久久久一区二区三区 | 亚洲一区二区三区免费观看| 久久久精品日韩欧美| 亚洲夜晚福利在线观看| 亚洲日本va在线观看| 影音先锋中文字幕一区二区| 国产欧美日韩三级| 国产精品乱码| 欧美性大战久久久久久久| 欧美激情第8页| 欧美成人一区二区在线| 久久亚洲不卡| 老司机67194精品线观看| 午夜国产一区| 午夜精品久久久久久久99黑人| 一本大道久久a久久精品综合| 欧美激情精品久久久久久| 免费观看成人网| 久久亚洲欧洲| 欧美在线3区| 欧美在线视频一区| 久久精品国产久精国产一老狼| 欧美在线地址| 久久久五月天| 男人的天堂亚洲在线| 久久久久国产精品人| 久久久久99精品国产片| 久久影院亚洲| 免费亚洲一区| 亚洲高清在线播放| 亚洲国产色一区| 日韩写真视频在线观看| 亚洲一区中文| 久久精品免费看| 欧美成ee人免费视频| 欧美精品在线免费| 国产精品99免费看| 国产亚洲制服色| 亚洲国产成人av| 在线一区二区三区四区| 亚洲一级黄色| 久久精品国产综合| 欧美福利在线| 日韩视频三区| 欧美在线观看www| 免费日韩视频| 国产精品夫妻自拍| 影音先锋成人资源站| 99在线|亚洲一区二区| 性色av一区二区三区在线观看 | 欧美gay视频激情| 亚洲经典自拍| 亚洲欧美欧美一区二区三区| 欧美在线免费观看| 欧美区二区三区| 国产亚洲欧美日韩一区二区| 亚洲精品久久久久| 欧美自拍偷拍| 最新国产乱人伦偷精品免费网站| 亚洲一区二区三区在线视频| 久久久免费观看视频| 欧美午夜片欧美片在线观看| 国产在线不卡| 亚洲天堂成人在线视频| 蜜臀久久99精品久久久久久9 | 亚洲欧美国内爽妇网| 欧美成人黑人xx视频免费观看| 国产精品久久久久久久久久ktv| 亚洲成人在线网| 久久精品毛片|