sunrise

每天不斷學習，才能不斷提升自己。

C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理 ::

64 隨筆 :: 0 文章 :: 92 評論 :: 0 Trackbacks

<

2012年9月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

常用鏈接

留言簿(12)

隨筆分類(63)

隨筆檔案(64)

收藏夾

算法之道

友情鏈接

iTech
從波
老鄧
黎明

搜索

積分與排名

積分 - 239170
排名 - 106

閱讀排行榜

評論排行榜

用python進行web應用：創建一個簡單的web客戶端

一.首先講一下統一資源定位符，簡單的Web應用被稱為URL（統一資源定位器，Uniform Resource Locator）的web地址。URL是大型標識符URI（統一資源標識，Uniform Resource Identifier）的一部分。

網絡定位元素：

1.部件：描述

2.user:登錄名

3.password:用戶的密碼

4.host:web服務器運行的機器名或地址

5.port:端口號

二.urllib2模塊

urllib2是python的一個獲取url（Uniform Resource Locators，統一資源定址器）的模塊。它用urlopen函數的形式提供了一個非常簡潔的接口。這使得用各種各樣的協議獲取url成為可能。它同時也提供了一個稍微復雜的接口來處理常見的狀況-如基本的認證，cookies，代理，等等。這些都是由叫做opener和handler的對象來處理的。

import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()

三.下面是一個通過訪問yago的提供的接口來統計wiki中數據在yago中的覆蓋率實例

def coveragerate(infile,outfile):
  rfile = open(infile,'r')
  wfile = open(outfile,'wa+')
  unfindcount = 0.0
  while(1):
    line = rfile.readline()
    tmpline = line
    if not line:
      break
    line = line.split(' ')
    URL = 'https://d5gate.ag5.mpi-sb.mpg.de/webyagospotlx/WebInterface?passedQuery=I%3A0%09S%3A'
    for i in range(len(line)):
      if i == 0:
        URL += line[i].strip()
      else:
        URL += '%20' + line[i].strip()
    URL += '%3B'
    print URL
    req = urllib2.Request(URL)
    try:
      response = urllib2.urlopen(req)
    except URLError,e:
      print e.reason
    html = response.read().split('\n')
    for i in range(len(html)):
      if '</div><h2>Results</h2>There were no results.<P>' in html:
        unfindcount += 1.0
        wfile.write(tmpline.strip() + ' Flase'+'\n')
        print 'run'
        break
      else:
        wfile.write(tmpline.strip() + ' True'+'\n')
        print 'run'
        break
  covrate = 1.0 - (unfindcount/len(html))
  wfile(covrate)
  wfile.close()
  rfile.close()

通過觀察yago在進行查詢的時候URL的變化規則，來補全URL，在進行訪問就可以獲得該頁面的html源碼。最后通過分析源碼，來判斷是否被查詢到，最后在統計一下能夠被覆蓋的數據即可。

posted on 2012-09-13 17:05 SunRise_at 閱讀(2018) 評論(0) 編輯收藏引用所屬分類: 可愛的python

只有注冊用戶登錄后才能發表評論。


相關文章: turbogear2上傳文件功能關于PIL庫的一些概念 python的默認參數 Google Translate API json的編碼和解析 python多線程 python編碼轉換 Python yield 用法 python enumerate用法 python之Queue

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

sunrise

常用鏈接

留言簿(12)

隨筆分類(63)

隨筆檔案(64)

收藏夾

ACMer

技術聯盟

可愛的python

數據挖掘