• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            sunrise

            每天不斷學(xué)習(xí),才能不斷提升自己。

              C++博客 :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
              64 隨筆 :: 0 文章 :: 92 評論 :: 0 Trackbacks
            一.首先講一下統(tǒng)一資源定位符,簡單的Web應(yīng)用被稱為URL(統(tǒng)一資源定位器,Uniform Resource Locator)的web地址。URL是大型標識符URI(統(tǒng)一資源標識,Uniform Resource Identifier)的一部分。
            網(wǎng)絡(luò)定位元素:
            1.部件:描述
            2.user:登錄名
            3.password:用戶的密碼
            4.host:web服務(wù)器運行的機器名或地址
            5.port:端口號
            二.urllib2模塊
            urllib2是python的一個獲取url(Uniform Resource Locators,統(tǒng)一資源定址器)的模塊。它用urlopen函數(shù)的形式提供了一個非常簡潔的接口。這使得用各種各樣的協(xié)議獲取url成為可能。它同時 也提供了一個稍微復(fù)雜的接口來處理常見的狀況-如基本的認證,cookies,代理,等等。這些都是由叫做opener和handler的對象來處理的。
            import urllib2  
            response = urllib2.urlopen('http://python.org/')  
            html = response.read() 
            三.下面是一個通過訪問yago的提供的接口來統(tǒng)計wiki中數(shù)據(jù)在yago中的覆蓋率實例
            def coveragerate(infile,outfile):
              rfile = open(infile,'r')
              wfile = open(outfile,'wa+')
              unfindcount = 0.0
              while(1):
                line = rfile.readline()
                tmpline = line
                if not line:
                  break
                line = line.split(' ')
                URL = 'https://d5gate.ag5.mpi-sb.mpg.de/webyagospotlx/WebInterface?passedQuery=I%3A0%09S%3A'
                for i in range(len(line)):
                  if i == 0:
                    URL += line[i].strip()
                  else:
                    URL += '%20' + line[i].strip()
                URL += '%3B'
                print URL
                req = urllib2.Request(URL)
                try:
                  response = urllib2.urlopen(req)
                except URLError,e:
                  print e.reason
                html = response.read().split('\n')
                for i in range(len(html)):
                  if '</div><h2>Results</h2>There were no results.<P>' in html:
                    unfindcount += 1.0
                    wfile.write(tmpline.strip() + ' Flase'+'\n')
                    print 'run'
                    break
                  else:
                    wfile.write(tmpline.strip() + ' True'+'\n')
                    print 'run'
                    break
              covrate = 1.0 - (unfindcount/len(html))
              wfile(covrate)
              wfile.close()
              rfile.close()

            通過觀察yago在進行查詢的時候URL的變化規(guī)則,來補全URL,在進行訪問就可以獲得該頁面的html源碼。最后通過分析源碼,來判斷是否被查詢到,最后在統(tǒng)計一下能夠被覆蓋的數(shù)據(jù)即可。


            posted on 2012-09-13 17:05 SunRise_at 閱讀(1999) 評論(0)  編輯 收藏 引用 所屬分類: 可愛的python
            亚洲国产精品无码久久青草| 久久夜色精品国产欧美乱| 亚洲国产成人久久综合一 | 国产成人香蕉久久久久| 久久精品国产只有精品66| 2021国产精品久久精品| 精品久久久久香蕉网| 久久综合九色欧美综合狠狠| 久久天天躁狠狠躁夜夜avapp| 精品久久久久久无码免费| 91麻豆国产精品91久久久| 97精品伊人久久大香线蕉app | 99久久国产综合精品麻豆| 亚洲一本综合久久| 性高湖久久久久久久久| 久久久网中文字幕| 青青青伊人色综合久久| 久久精品人人做人人爽97| 日韩中文久久| 国产成人综合久久精品尤物| 麻豆AV一区二区三区久久| 久久婷婷色香五月综合激情| 国产成人AV综合久久| www.久久热.com| 久久精品aⅴ无码中文字字幕不卡| 久久国产欧美日韩精品免费| 国产精品亚洲美女久久久| 久久天天躁狠狠躁夜夜avapp| 精品国产乱码久久久久软件| 久久免费国产精品| 午夜精品久久影院蜜桃| 亚洲精品国产自在久久| 欧洲国产伦久久久久久久| 久久久国产精华液| 亚洲国产成人精品无码久久久久久综合 | 日韩欧美亚洲综合久久影院Ds| 99久久99久久精品免费看蜜桃| 狠狠综合久久AV一区二区三区| 亚洲精品无码久久久| 97视频久久久| 久久精品国产亚洲av麻豆小说 |