• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            jake1036

            larbin源碼分析(四) hashTable類對象的實現

             larbin源碼分析(四)hashTable類對象的實現

               一 hashTable類對象
                   作用:爬蟲將爬取的url存儲在該類對象中,存儲方式是,url對象的hashcode,映射到對應的表項中。
                   其中每一個url,映射成對應table中的一個bit,其中表空間大小為 64000000(單位為bit),大小的定義存儲在types.h頭文件中。
                   爬去到的url需要在hashTable中進行一次查找,若是不存在,則進行進一步遍歷。已經存在,則不需要遍歷。
               二 成員函數
                   HashTable(bool created ) 構造函數
                   ~HashTable() 析構函數
                  save() ; 將hashTable存儲在文件中。
                  test(url * U) ;判斷對應的url是否在hashTable 中
                  set(url * u) ; 將hashTable對應的URL ,設置稱當前的。
                  testset(url* u) 如果已經添加返回true 。若是之前已經存在返回false 
              三 實現 
                (1) HashTable(bool created)
                 當created為true的時候,表示不需要從文件中讀取,直接進行初始化,將table區域全部初始化為0即可。
                 若created為false的時候,表示需要從文件hashtable.bak中讀取存儲的數據,將其存放進hashtable類中的table緩沖區中。
                 
                (2) save() 函數實現
                   rename("hashtable.bak", "hashtable.old"); //將hashtable.bak文件存儲在臨時文件hashtable.old中
                   int fds = creat("hashtable.bak", 00600);   //新創建hashtable.bak文件
                   if (fds >= 0) {
                     ecrireBuff(fds, table, hashSize/8);          //將hashtable寫入文件
                     close(fds);                                           //關閉操作
                   }
                  unlink("hashtable.old");                            //對hashtable.old進行解鏈操作
                (3) bool  test(url * U)                              //判斷url是否在hashtable中
                       {
                            int code = U->hashcode() ;          //調用url的hashcode函數。
                            int pos = code / 8 ;                     //每一個url在hashtable中即為一個url
                            int index = 1 << code % 8 ;
                            return table[pos] & index 
                      }
                  (4)   hashTable::set (url *U)                   //將對應的一個URL插入進hashtable中 
                        {
                            int code = U->hashcode() ;          //調用url的hashcode函數。
                            int pos = code / 8 ;                     //每一個url在hashtable中即為一個url
                            int index = 1 << code % 8 ;
                            table[pos] |= index ;      
                         }
                   (5) bool hashTable::testSet (url *U) {      //若已經存在此url則返回false,不存在則完成插入,然后返回true
                            int code = U->hashcode() ;          //調用url的hashcode函數。
                            int pos = code / 8 ;                     //每一個url在hashtable中即為一個url
                            unsigned int index = 1 << code % 8 ;
                            int res  = table[pos] & index ;    
                             table[pos] |= index ;
                              return !res ;

                        }
              
                 四 總結
                     hashTable 用來存儲爬去下來的url,若是已經存在則不進行插入。
                     每一個url使用一個bit來進行存儲。


            posted on 2011-06-12 16:16 kahn 閱讀(822) 評論(0)  編輯 收藏 引用 所屬分類: larbin源碼分析

            国内精品伊人久久久影院| 狠狠色噜噜狠狠狠狠狠色综合久久| 亚洲精品高清国产一线久久| 久久国产香蕉一区精品| 国产精品久久久福利| 伊人色综合久久天天人手人婷 | 欧美麻豆久久久久久中文| 国内精品免费久久影院| 久久久WWW成人免费精品| 久久久久成人精品无码| 亚洲午夜精品久久久久久app| 四虎久久影院| 亚洲精品乱码久久久久久按摩| 新狼窝色AV性久久久久久| 久久精品国产亚洲av水果派| 久久er国产精品免费观看2| 狠狠人妻久久久久久综合| 久久免费大片| 色偷偷偷久久伊人大杳蕉| 久久久久久久综合日本亚洲| 久久久中文字幕| 亚洲精品NV久久久久久久久久| 久久人人爽人人人人爽AV| 国内精品久久久久久99蜜桃| 94久久国产乱子伦精品免费| 亚洲人成无码网站久久99热国产| 三上悠亚久久精品| 精品99久久aaa一级毛片| 无码人妻久久一区二区三区蜜桃| 久久久久高潮毛片免费全部播放| 国产99久久精品一区二区| 日批日出水久久亚洲精品tv| 久久狠狠爱亚洲综合影院| 色偷偷888欧美精品久久久| 一级女性全黄久久生活片免费 | 久久久91人妻无码精品蜜桃HD| 中文字幕热久久久久久久| 久久精品国产精品亚洲| av无码久久久久久不卡网站| 人妻无码久久精品| 国产国产成人久久精品|