• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆 - 89  文章 - 118  trackbacks - 0
            <2009年11月>
            25262728293031
            1234567
            891011121314
            15161718192021
            22232425262728
            293012345

            留言簿(16)

            隨筆分類(56)

            隨筆檔案(89)

            文章分類

            推薦博客

            搜索

            •  

            最新隨筆

            最新評論

            閱讀排行榜

            二、網絡抓蟲

            網頁頁面劃分為5個部分:
            1、已下載
            2、已過期
            3、待下載
            4、可知網頁集合,未下載,但可索引
            5、不可知網頁集合,暗網網頁
            爬蟲分三種類型:
            1、批量型:有明確的抓取范圍和目標,當達到這個目標后停止抓取
            2、增量型:不斷抓取,抓取到以后定期更新
            3、垂直型:抓取特定行業網頁
            優秀爬蟲的特性:高性能、可擴展(良好的并發性)、健壯性、友好性(遵守Robot協議)
            評價爬蟲質量的標準:覆蓋率,時新性,重要性
             
            抓取策略:優先選擇重要網頁進行抓取
            1、寬度優先遍歷策略,雖然機械,但是效果好,隱含了一些網頁優秀級的假設
            2、非完全PageRank策略,對已下載網頁集合,加上待抓取URL,形成網頁集合,進行PageRank計算,將待抓取按得分進行排序
            3、OCIP策略,在線頁面重要性計算,待下載頁面都分配相同的cash,下載后把頁面擁有的現金平分給包含的鏈接,
            待抓取URL則根據手頭現金排序,優先下載最充裕網頁。計算速度快,適合實時計算,效果略優于寬度優先
            4、大站優先策略,哪個網站等等下載的頁面最多,則優先下載這些鏈接,效果略優于寬度優先

            網頁更新策略
            1、歷史參考策略,過去頻繁更新的網頁,將來也會頻繁更新,利用泊松過程
            抓取策略應該忽略掉廣告或導航等非重要區域的頻繁變化,集中在主題內容的變化探測和建模
            2、用戶體驗策略,對搜索結果排名靠前,更新以后對搜索質量(排名)的影響較大的頁面進行更新
            3、聚類抽樣策略,先對網頁進行聚類,對同一類網頁采用相同的更新頻率
            聚類特征:
            靜態特征,頁面的內容,圖片數量,頁面大小,鏈接深度,PageRank值
            動態特征,隨著時間的變化 ,靜態特征的變化情況
            聚類抽樣策略效果好于前述兩種,但是對億計網頁進行聚類,難度較大

            暗網抓取
            將暗網數據從數據庫中挖掘出來,百度的“阿拉丁”計劃就是解決此問題
            查詢組合:Google提出富含信息查詢模板技術,使用富含信息查詢模板進行查詢,獲取有效的網頁結果
            富含信息查詢模板:對于某固定的查詢模板來說,如果給模板內每個屬性都賦值,形成不同的查詢組合,其返回內容差異較大,則這個查詢模板為富含信息查詢模板

            分布式爬蟲
            主從分布式:URL服務器容易成為整個系統的瓶頸
            對等分布式:沒有URL服務器存在,每臺抓取服務器的分工成為問題,對網址的主域名進行哈希計算,之后對m服務器數量取模,把計算后的模和抓取服務器號匹配
            一致性哈希算法:將網站主域名進行哈希,映射到0~2^32之間某個數值,抓取服務器負責這個環狀序列的一個片段的抓取,抓取內容由上一個服務器進行循環轉發
            posted on 2013-09-13 11:10 胡滿超 閱讀(594) 評論(0)  編輯 收藏 引用 所屬分類: 搜索引擎
            久久亚洲国产午夜精品理论片| 久久毛片免费看一区二区三区| 精品国产青草久久久久福利| 久久久久久精品久久久久| 久久精品国产99国产精品亚洲| 久久丫精品国产亚洲av不卡| 超级碰久久免费公开视频| 久久人搡人人玩人妻精品首页| 99久久免费国产精品特黄| 久久99热只有频精品8| 日韩精品无码久久一区二区三| 久久天天躁狠狠躁夜夜网站 | 青青草原精品99久久精品66| 国产女人aaa级久久久级| 亚洲国产一成人久久精品| 国产精品综合久久第一页| 国产成人精品白浆久久69| 伊人热热久久原色播放www | 亚洲午夜无码AV毛片久久| 久久成人精品视频| 婷婷综合久久中文字幕蜜桃三电影| 国内精品久久久久久不卡影院| 久久婷婷五月综合97色一本一本 | 九九99精品久久久久久| 亚洲人成精品久久久久| 久久久99精品成人片中文字幕| 国产精品久久网| 精品久久久久久久无码| 麻豆亚洲AV永久无码精品久久| 亚洲伊人久久综合影院| 欧美与黑人午夜性猛交久久久 | 色悠久久久久久久综合网| 91久久香蕉国产熟女线看| 久久99国产精品一区二区| 久久er99热精品一区二区| 蜜臀久久99精品久久久久久小说 | 91精品国产高清久久久久久国产嫩草 | 色婷婷综合久久久久中文| 伊人久久大香线蕉AV色婷婷色| 一本久久a久久精品亚洲| 亚洲香蕉网久久综合影视 |