網絡上關于增量搜集網頁的資料比較少,可能還不成熟的原因。
偶有所感啊。。。。
獲取url之后,存放在visittable中,并保存本次的指紋信息。
需要根據它的重要程度,初步估算一個搜集間隔。
當到達下次搜集時間,則搜集它,這個時候,根據上下兩次的
指紋,判斷是否有網頁是否有變化,以調整搜集間隔。
舉例:第一次間隔10天,10天后搜集發現有變化,則調整間隔為5天。
5天后搜集發現無變化,則調整間隔為7.5天,以得到一個差不多的值。
網站的重要程度也是一個方面,比如專門搜索mp3的搜索引擎,可以把
根本沒有mp3的網站列入無效網站,把mp3較多的網站列為專業網站,
縮小搜索間隔。
visittable表結構:
URLCode |
URL |
nextTime |
interval |
preInterval |
finger |
|
|
|
|
|
|
posted on 2008-05-22 22:23
merlinfang 閱讀(387)
評論(0) 編輯 收藏 引用 所屬分類:
搜索引擎