<ins id="pjuwb"></ins>

<blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>

<noscript id="pjuwb"></noscript>

<sup id="pjuwb"><pre id="pjuwb"></pre></sup>

<dd id="pjuwb"></dd>

<abbr id="pjuwb"></abbr>

<center id="cysos"></center>

<button id="cysos"><input id="cysos"></input></button>

mysileng

posts - 200, comments - 8, trackbacks - 0, articles - 0

海量數據處理專題（三）——Hash(轉)

Posted on 2012-11-05 20:19 鑫龍閱讀(293) 評論(0) 編輯收藏引用所屬分類: 海量數據處理

【什么是Hash】
Hash，一般翻譯做“散列”，也有直接音譯為“哈希”的，就是把任意長度的輸入（又叫做預映射， pre-image），通過散列算法，變換成固定長度的輸出，該輸出就是散列值。這種轉換是一種壓縮映射，也就是，散列值的空間通常遠小于輸入的空間，不同的輸入可能會散列成相同的輸出，而不可能從散列值來唯一的確定輸入值。簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數。
HASH主要用于信息安全領域中加密算法，它把一些不同長度的信息轉化成雜亂的128位的編碼,這些編碼值叫做HASH值. 也可以說，hash就是找到一種數據內容和數據存放地址之間的映射關系。
數組的特點是：尋址容易，插入和刪除困難；而鏈表的特點是：尋址困難，插入和刪除容易。那么我們能不能綜合兩者的特性，做出一種尋址容易，插入刪除也容易的數據結構？答案是肯定的，這就是我們要提起的哈希表，哈希表有多種不同的實現方法，我接下來解釋的是最常用的一種方法——拉鏈法，我們可以理解為“鏈表的數組”，如圖：
左邊很明顯是個數組，數組的每個成員包括一個指針，指向一個鏈表的頭，當然這個鏈表可能為空，也可能元素很多。我們根據元素的一些特征把元素分配到不同的鏈表中去，也是根據這些特征，找到正確的鏈表，再從鏈表中找出這個元素。
元素特征轉變為數組下標的方法就是散列法。散列法當然不止一種，下面列出三種比較常用的。
1，除法散列法
最直觀的一種，上圖使用的就是這種散列法，公式：
index = value % 16
學過匯編的都知道，求模數其實是通過一個除法運算得到的，所以叫“除法散列法”。
2，平方散列法
求index是非常頻繁的操作，而乘法的運算要比除法來得省時（對現在的CPU來說，估計我們感覺不出來），所以我們考慮把除法換成乘法和一個位移操作。公式：
index = (value * value) >> 28
如果數值分配比較均勻的話這種方法能得到不錯的結果，但我上面畫的那個圖的各個元素的值算出來的index都是0——非常失敗。也許你還有個問題，value如果很大，value * value不會溢出嗎？答案是會的，但我們這個乘法不關心溢出，因為我們根本不是為了獲取相乘結果，而是為了獲取index。
3，斐波那契（Fibonacci）散列法
平方散列法的缺點是顯而易見的，所以我們能不能找出一個理想的乘數，而不是拿value本身當作乘數呢？答案是肯定的。
1，對于16位整數而言，這個乘數是40503
2，對于32位整數而言，這個乘數是2654435769
3，對于64位整數而言，這個乘數是11400714819323198485
這幾個“理想乘數”是如何得出來的呢？這跟一個法則有關，叫黃金分割法則，而描述黃金分割法則的最經典表達式無疑就是著名的斐波那契數列，如果你還有興趣，就到網上查找一下“斐波那契數列”等關鍵字，我數學水平有限，不知道怎么描述清楚為什么，另外斐波那契數列的值居然和太陽系八大行星的軌道半徑的比例出奇吻合，很神奇，對么？
對我們常見的32位整數而言，公式：
i ndex = (value * 2654435769) >> 28
如果用這種斐波那契散列法的話，那我上面的圖就變成這樣了：

很明顯，用斐波那契散列法調整之后要比原來的取摸散列法好很多。
【適用范圍】
快速查找，刪除的基本數據結構，通常需要總數據量可以放入內存。
【基本原理及要點】
hash函數選擇，針對字符串，整數，排列，具體相應的hash方法。
碰撞處理，一種是open hashing，也稱為拉鏈法；另一種就是closed hashing，也稱開地址法，opened addressing。
【擴展】
d-left hashing中的d是多個的意思，我們先簡化這個問題，看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半，分別叫做T1和T2，給T1和T2分別配備一個哈希函數，h1和h2。在存儲一個新的key時，同時用兩個哈希函數進行計算，得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置，哪一個位置已經存儲的（有碰撞的）key比較多，然后將新key存儲在負載少的位置。如果兩邊一樣多，比如兩個位置都為空或者都存儲了一個key，就把新key 存儲在左邊的T1子表中，2-left也由此而來。在查找一個key時，必須進行兩次hash，同時查找兩個位置。
【問題實例】
1).海量日志數據，提取出某日訪問百度次數最多的那個IP。
IP的數目還是有限的，最多2^32個，所以可以考慮使用hash將ip直接存入內存，然后進行統計。
做人要厚道，轉載請注明出處： http://diducoder.com/mass-data-topic-3-hash.html

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: 海量數據處理專題（九）——外排序(轉) 海量數據處理專題（八）——倒排索引(搜索引擎之基石)(轉) 海量數據處理專題（七）——數據庫索引及優化(轉) 海量數據處理專題（六）——雙層桶劃分(轉) 海量數據處理專題（五）——堆(轉) 海量數據處理專題（四）——Bit-map(轉) 海量數據處理專題（三）——Hash(轉) 海量數據處理專題（二）——Bloom Filter(轉) 海量數據處理專題（一）(轉) 教你如何迅速秒殺99%的海量數據處理面試題(轉)

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

日韩精品久久久肉伦网站| 国产精品久久久久一区二区三区 | 亚洲日本va午夜中文字幕久久| 久久综合一区二区无码| 亚洲国产成人久久精品99| 一本色道久久99一综合| 99精品久久精品一区二区| 久久无码一区二区三区少妇| 天堂久久天堂AV色综合| 国产精品日韩深夜福利久久| 天堂久久天堂AV色综合| 久久996热精品xxxx| 久久99国产综合精品| 亚洲乱码日产精品a级毛片久久| 99久久中文字幕| 亚洲国产日韩综合久久精品| 国产午夜久久影院| 亚洲日韩中文无码久久| 一本色道久久88综合日韩精品| 久久国产精品成人影院| 无码国内精品久久综合88| 色综合久久88色综合天天| 久久青青草原精品国产| 99精品久久久久久久婷婷| 久久综合精品国产一区二区三区| 久久综合丝袜日本网| 国产一久久香蕉国产线看观看| 久久婷婷五月综合色高清| 波多野结衣久久一区二区| 精品久久人人做人人爽综合| 伊人丁香狠狠色综合久久| 久久精品国产99国产精品澳门| 国产成人精品免费久久久久| 久久91精品国产91久久户| 精品久久一区二区三区| 久久99久久99精品免视看动漫| 99久久婷婷国产综合亚洲| 99久久免费国产精精品| 国产成人99久久亚洲综合精品 | 久久青青草原国产精品免费| 一级做a爰片久久毛片人呢|

<li id="ycaqo"></li>

<button id="ycaqo"><input id="ycaqo"></input></button>

<dfn id="ycaqo"></dfn>

<rt id="ycaqo"><acronym id="ycaqo"></acronym></rt>