青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆-162  評論-223  文章-30  trackbacks-0
   在開發HTTP相關程序時,經常會碰到從網絡鏈接URL中提取協議名、服務器、路徑等目標對象,如果使用C/C++字符串操作函數,那么則顯得有點麻煩且代碼不易維護,其實關于文本內容的解析工作,都可優先考慮使用正則表達式庫來解決處理,C++方面的正則庫也有很多種,如atl、pcre、boost。下面就使用boost中的regex來解析URL提取協議名、服務器、路徑為目標說明其用法。

協議名
   可有可無,如果有時則后面必跟著://,如果沒有,則默認為使用http協議。通常還有其它的協議如https、ssl、ftp、mailto等。因此匹配協議名的正則表達式應該是(?:(mailto|ssh|ftp|https?)://)?,注意這個表達式本身捕獲了協議名,但不包括://。
   
服務器
   或是域名,如www.csdn.net;或是IP地址,如192.168.1.1,可帶端口號,如192.168.1.1:8080。匹配域名的正則表達式為(?:[a-z0-9](?:[-a-z0-9]*[a-z0-9])?\.)+(?:com|net|edu|biz|gov|org|in(?:t|fo)|(?-i:[a-z][a-z])),表達式"(?:com|net|edu|biz|gov|org|in(?:t|fo)"匹配了com、net、edu、biz、gov、org、int、info等常見的域名,而(?-i:[a-z][a-z])匹配了國家代碼,而且只允許小寫為合法的,如www.richcomm.com.cn。匹配IP要盡量精確,考慮到IP每部分應為數字且范圍在0-255之間,因此表達式應為(?:[01]?\d\d?|2[0-4]\d|25[0-5])\.(?:[01]?\d\d?|2[0-4]\d|25[0-5])\.(?:[01]?\d\d?|2[0-4]\d|25[0-5])\.(?:[01]?\d\d?|2[0-4]\d|25[0-5])。注意以上域名或IP的正則式本身不捕獲它們,這是為了留在后面作為整體捕獲。
   端口號的正則表達式為(?::(\d{1,5}))?,這里限制了端口號為1至5位的數字,更精確的匹配如要求在某范圍如[1024,65535]間則可參考以上IP正則模式。綜上所得,匹配服務器的正則表達式為((?:(?:[a-z0-9](?:[-a-z0-9]*[a-z0-9])?\.)+(?:com|net|edu|biz|gov|org|in(?:t|fo)|(?-i:[a-z][a-z]))|(?:[01]?\d\d?|2[0-4]\d|25[0-5])\.(?:[01]?\d\d?|2[0-4]\d|25[0-5])\.(?:[01]?\d\d?|2[0-4]\d|25[0-5])\.(?:[01]?\d\d?|2[0-4]\d|25[0-5])))(?::(\d{1,5}))?,這個正則式作為整體捕獲了域名或IP,及端口號(若有),如www.csdn.net,則得到www.csdn.net和空(沒有端口,http默認為80,https默認為443)子串;192.168.1.1:8080則得到192.168.1.1和8080子串。
   
路徑
   最簡單的形式為(/.*)?,更精確的形式為/[^.!,?;"'<>()\[\]{}\s\x7F-\xFF]*(?:[.!,?]+[^.!,?;"'<>()\[\]{}\s\x7F-\xFF]+)*。
   
   以上所有正則表達式均為ascii字符集,對于unicode字符集則在其前加L即可。
   
   為方便使用,封裝成了兩個自由模板函數,如下所示
 1template<typename charT>
 2inline bool boost_match(const charT* pattern,const charT* text,unsigned int flags=boost::regex::normal,boost::match_results<const charT*>* result=NULL)
 3{
 4    boost::basic_regex<charT,boost::regex_traits<charT> > expression(pattern,flags); 
 5    if(NULL==result)
 6        return boost::regex_match(text,expression);
 7    return boost::regex_match(text,*result,expression);
 8}

 9
10template<typename charT>
11inline bool boost_search(const charT* pattern,const charT* text,unsigned int flags=boost::regex::normal,boost::match_results<const charT*>* result=NULL)
12{
13    boost::basic_regex<charT,boost::regex_traits<charT> > expression(pattern,flags); 
14    if(NULL==result)
15        return boost::regex_search(text,expression);
16    return boost::regex_search(text,*result,expression);
17}
   
   測試示例如下      
 1static const string protocol = "(?:(mailto|ssh|ftp|https?)://)?";
 2static const string hostname = "(?:[a-z0-9](?:[-a-z0-9]*[a-z0-9])?\\.)+(?:com|net|edu|biz|gov|org|in(?:t|fo)|(?-i:[a-z][a-z]))";
 3static const string ip = "(?:[01]?\\d\\d?|2[0-4]\\d|25[0-5])\\.(?:[01]?\\d\\d?|2[0-4]\\d|25[0-5])\\.(?:[01]?\\d\\d?|2[0-4]\\d|25[0-5])\\.(?:[01]?\\d\\d?|2[0-4]\\d|25[0-5])";
 4static const string port = "(?::(\\d{1,5}))?";
 5static const string path = "(/.*)?";
 6static const string pattern = protocol + "((?:" + hostname + "|" + ip + "))" + port + path;
 7
 8int _tmain(int argc, _TCHAR* argv[])
 9{
10    using namespace boost;
11
12    //形式1: 帶協議名,服務器為名稱,不帶端口號
13    bool ret;
14    string text = "http://m.shnenglu.com/qinqing1984";
15    boost::cmatch what;
16    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
17    assert(ret);
18    assert(what[1].str()=="http");
19    assert(what[2].str()=="m.shnenglu.com");
20    assert(what[3].str()=="");
21    assert(what[4].str()=="/qinqing1984");
22
23    //形式2: 不帶協議名,服務器為名稱,帶端口號
24    text = "m.shnenglu.com:80/qinqing1984";
25    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
26    assert(ret);
27    assert(what[1].str()=="");
28    assert(what[2].str()=="m.shnenglu.com");
29    assert(what[3].str()=="80");
30    assert(what[4].str()=="/qinqing1984");
31
32    //形式3: 不帶協議名,服務器為名稱,不帶路徑
33    text = "m.shnenglu.com:80";
34    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
35    assert(ret);
36    assert(what[1].str()=="");
37    assert(what[2].str()=="m.shnenglu.com");
38    assert(what[3].str()=="80");
39    assert(what[4].str()=="");
40
41    //形式4: 協議為https,服務器為IP,帶端口號
42    text = "https://192.168.1.1:443/index.html";
43    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
44    assert(ret);
45    assert(what[1].str()=="https");
46    assert(what[2].str()=="192.168.1.1");
47    assert(what[3].str()=="443");
48    assert(what[4].str()=="/index.html");
49
50    //形式5: 端口超過5位數
51    text = "ftp://192.168.1.1:888888";
52    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
53    assert(!ret);
54
55    //形式6: 沒有協議名
56    text = "//192.168.1.1/index.html";
57    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
58    assert(!ret);
59
60    //形式7: 沒有服務器
61    text = "http:///index.html";
62    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
63    assert(!ret);
64
65    //形式8: 不合法的服務器
66    text = "cppblog/index.html";
67    ret=boost_match(pattern.c_str(),text.c_str(),regex::icase|regex::perl,&what);
68    assert(!ret);
69
70    return 0;
71}
   對URL的解析,因時間有限,本文所述不盡詳細,只是略作分析,以點帶面,更多的精確匹配則依賴于實際的應用需求。
posted on 2011-11-27 17:22 春秋十二月 閱讀(7965) 評論(5)  編輯 收藏 引用 所屬分類: Opensrc

評論:
# re: 使用boost regex解析URL 2011-11-27 23:08 | guest
最后一個是合法的,最常見的情況就是在在局域網內,有臺叫cppblog的機器,直接用cppblog訪問。  回復  更多評論
  
# re: 使用boost regex解析URL 2011-11-28 08:57 | 萬連文
如果程序僅限win平臺,使用InternetCrackUrl;否則的話請移植chrome等開源的解析,否則完備性不夠的話,后面隱藏的BUG會讓你瘋狂。  回復  更多評論
  
# re: 使用boost regex解析URL 2011-11-28 09:29 | 春秋十二月
你說的有道理,我明白@萬連文
  回復  更多評論
  
# re: 使用正則表達式解析URL 2014-07-17 03:03 | lixubin
linux 下編譯能通過,但是表達式好像有問題

'boost::bad_expression'
what(): Invalid preceding regular expression
Aborted (core dumped)  回復  更多評論
  
# re: 使用正則表達式解析URL 2015-08-11 14:35 | mz
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            午夜精品视频一区| 久久成人免费视频| 国产精品一区二区三区四区| 欧美日韩成人| 欧美日韩国产精品成人| 欧美日精品一区视频| 国产精品久久久久久户外露出| 国产精品久久久久久久第一福利| 国产精品伦一区| 国产欧美一区在线| 一区二区三区在线视频免费观看| 亚洲人成欧美中文字幕| 一级成人国产| 久久av二区| 欧美国产精品久久| 亚洲天堂网在线观看| 久久精品国产精品 | 久久久久久自在自线| 久久野战av| 日韩午夜精品| 欧美一级久久| 欧美精品色网| 激情亚洲网站| 亚洲天堂成人在线视频| 久久久97精品| 亚洲精品人人| 久久九九精品99国产精品| 欧美精品一区二区三区蜜臀| 亚洲精品乱码久久久久久日本蜜臀| 亚洲电影自拍| 欧美黄色aa电影| 亚洲自拍16p| 欧美精品九九| 在线成人小视频| 欧美一级淫片aaaaaaa视频| 欧美激情一区二区在线 | 欧美一区二区性| 欧美连裤袜在线视频| 国内精品久久久久影院优| 亚洲视频在线观看网站| 欧美成人亚洲成人| 欧美在线91| 国产精品一区二区黑丝| a91a精品视频在线观看| 欧美国产第一页| 久久久久久噜噜噜久久久精品| 国产精品国产三级国产专播精品人| 精品av久久久久电影| 先锋亚洲精品| 一区二区三区欧美成人| 欧美激情久久久| 亚洲人体大胆视频| 亚洲国产精品视频一区| 玖玖国产精品视频| 亚洲国产成人av| 欧美电影打屁股sp| 久久深夜福利免费观看| 国产日韩亚洲欧美综合| 午夜久久影院| 亚洲一区二区精品在线观看| 国产精品久久777777毛茸茸| 亚洲一区区二区| 中国亚洲黄色| 国产精品系列在线播放| 午夜精品一区二区三区在线播放| 在线亚洲一区观看| 国产精品视频久久久| 香蕉久久夜色精品国产使用方法| 一区二区三区波多野结衣在线观看| 欧美日韩午夜精品| 午夜精品偷拍| 久久国产精品久久国产精品| 一区二区三区在线观看欧美| 欧美成人一区二区三区在线观看| 嫩模写真一区二区三区三州| 亚洲精品中文字幕女同| 亚洲另类一区二区| 国产精品视频久久| 久久一区二区三区国产精品| 免费日韩成人| 亚洲自拍16p| 久久久国产精品一区二区中文 | 亚洲天堂av图片| 国产色婷婷国产综合在线理论片a| 性欧美大战久久久久久久久| 99综合精品| 欧美新色视频| 欧美在线视频一区二区| 久久精品一区二区三区不卡牛牛| 在线不卡中文字幕| 亚洲精品国产系列| 国产精品久久久久秋霞鲁丝| 久久精品国产69国产精品亚洲| 久久久久国产精品人| 最新亚洲一区| 亚洲字幕在线观看| 亚洲激情中文1区| 亚洲视频碰碰| 亚洲第一在线| 亚洲一本视频| 亚洲破处大片| 午夜在线视频观看日韩17c| 亚洲国产精品久久久| 一本久道综合久久精品| 伊人久久噜噜噜躁狠狠躁| 亚洲乱码日产精品bd| 激情久久久久久久久久久久久久久久| 亚洲精品女av网站| 国产日韩欧美一区| 亚洲精品精选| 禁断一区二区三区在线| 亚洲欧洲久久| 亚洲精品视频在线观看网站| 欧美一区2区三区4区公司二百| 亚洲精品色图| 欧美一区二区在线免费观看| 亚洲精品美女在线观看| 欧美一级视频精品观看| 99这里只有久久精品视频| 久久久精品动漫| 午夜精品久久久久久久久久久| 女生裸体视频一区二区三区| 久久电影一区| 欧美体内谢she精2性欧美| 免费毛片一区二区三区久久久| 国产精品99免费看| 91久久国产综合久久| 伊人狠狠色丁香综合尤物| 亚洲欧美日韩综合一区| 夜夜嗨一区二区| 欧美jizz19性欧美| 免费欧美在线视频| 国产一区二区三区在线播放免费观看| 最新成人av在线| 亚洲第一在线| 久久美女艺术照精彩视频福利播放| 亚洲淫性视频| 欧美性感一类影片在线播放| 91久久精品久久国产性色也91| 在线不卡a资源高清| 亚洲女人天堂av| 久久久99爱| 韩国av一区二区三区| 久久久久久久网| 欧美福利视频在线观看| 亚洲破处大片| 欧美日韩在线三区| 亚洲永久在线| 久久久久久一区二区三区| 美女视频黄 久久| 久久五月天婷婷| 免费视频最近日韩| 最新亚洲一区| 国产精品久久久久久久久久久久久| 日韩网站在线看片你懂的| 亚洲欧美激情四射在线日| 国产日韩欧美麻豆| 久久久午夜视频| 亚洲精品一区二区三区99| 亚洲视频免费看| 国产日韩欧美黄色| 免播放器亚洲一区| 一二三区精品福利视频| 性欧美xxxx视频在线观看| 黄色av日韩| 欧美日韩午夜视频在线观看| 午夜久久黄色| 亚洲国产天堂久久综合| 亚洲欧美卡通另类91av| 激情综合亚洲| 欧美另类一区| 性色av一区二区三区红粉影视| 久久只精品国产| 亚洲素人在线| 伊人婷婷欧美激情| 国产精品成人在线观看| 久久久不卡网国产精品一区| 亚洲精品在线视频观看| 久久激情五月婷婷| 亚洲精品社区| 国产精品男人爽免费视频1| 久热精品视频在线观看一区| 正在播放日韩| 亚洲国产色一区| 久久久五月婷婷| 亚洲男女自偷自拍| 亚洲美女黄网| 在线日韩欧美| 国产麻豆成人精品| 欧美区日韩区| 久久躁狠狠躁夜夜爽| 亚洲婷婷综合久久一本伊一区| 男女精品网站| 久久午夜av| 亚洲女人小视频在线观看| 最新69国产成人精品视频免费| 国产乱码精品1区2区3区| 欧美日韩精品伦理作品在线免费观看| 欧美一区二区私人影院日本 | 亚洲视频精品|