程序描繪人生
知識改變命運，學習成就未來。

隨筆 - 89 文章 - 118 trackbacks - 0

<

2012年12月

>

日

一

二

三

四

五

六

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

留言簿(16)

隨筆分類(56)

隨筆檔案(89)

文章分類

推薦博客

在你身邊
胡滿超的非技術博客

搜索

閱讀排行榜

這就是搜索引擎－筆試2

二、網絡抓蟲

網頁頁面劃分為5個部分：

1、已下載

2、已過期

3、待下載

4、可知網頁集合，未下載，但可索引

5、不可知網頁集合，暗網網頁

爬蟲分三種類型：

1、批量型：有明確的抓取范圍和目標，當達到這個目標后停止抓取

2、增量型：不斷抓取，抓取到以后定期更新

3、垂直型：抓取特定行業網頁

優秀爬蟲的特性：高性能、可擴展（良好的并發性）、健壯性、友好性（遵守Robot協議）

評價爬蟲質量的標準：覆蓋率，時新性，重要性

抓取策略：優先選擇重要網頁進行抓取

1、寬度優先遍歷策略，雖然機械，但是效果好，隱含了一些網頁優秀級的假設

2、非完全PageRank策略，對已下載網頁集合，加上待抓取URL，形成網頁集合，進行PageRank計算，將待抓取按得分進行排序

3、OCIP策略，在線頁面重要性計算，待下載頁面都分配相同的cash，下載后把頁面擁有的現金平分給包含的鏈接，

待抓取URL則根據手頭現金排序，優先下載最充裕網頁。計算速度快，適合實時計算，效果略優于寬度優先

4、大站優先策略，哪個網站等等下載的頁面最多，則優先下載這些鏈接，效果略優于寬度優先

網頁更新策略

1、歷史參考策略，過去頻繁更新的網頁，將來也會頻繁更新，利用泊松過程

抓取策略應該忽略掉廣告或導航等非重要區域的頻繁變化，集中在主題內容的變化探測和建模

2、用戶體驗策略，對搜索結果排名靠前，更新以后對搜索質量（排名）的影響較大的頁面進行更新

3、聚類抽樣策略，先對網頁進行聚類，對同一類網頁采用相同的更新頻率

聚類特征：

靜態特征，頁面的內容，圖片數量，頁面大小，鏈接深度，PageRank值

動態特征，隨著時間的變化，靜態特征的變化情況

聚類抽樣策略效果好于前述兩種，但是對億計網頁進行聚類，難度較大

暗網抓取

將暗網數據從數據庫中挖掘出來，百度的“阿拉丁”計劃就是解決此問題

查詢組合：Google提出富含信息查詢模板技術，使用富含信息查詢模板進行查詢，獲取有效的網頁結果

富含信息查詢模板：對于某固定的查詢模板來說，如果給模板內每個屬性都賦值，形成不同的查詢組合，其返回內容差異較大，則這個查詢模板為富含信息查詢模板

分布式爬蟲

主從分布式：URL服務器容易成為整個系統的瓶頸

對等分布式：沒有URL服務器存在，每臺抓取服務器的分工成為問題，對網址的主域名進行哈希計算，之后對m服務器數量取模，把計算后的模和抓取服務器號匹配

一致性哈希算法：將網站主域名進行哈希，映射到0~2^32之間某個數值，抓取服務器負責這個環狀序列的一個片段的抓取，抓取內容由上一個服務器進行循環轉發

posted on 2013-09-13 11:10 胡滿超閱讀(611) 評論(0) 編輯收藏引用所屬分類: 搜索引擎

只有注冊用戶登錄后才能發表評論。


相關文章: 深入淺出LSH 這就是搜索引擎－筆試6-鏈接分析這就是搜索引擎－筆試5-檢索模型與搜索排序這就是搜索引擎－筆試4-索引壓縮這就是搜索引擎－筆試3-搜索引擎索引這就是搜索引擎－筆試2 這就是搜索引擎－筆試1 轉: 怎樣量化評價搜索引擎的結果質量

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品