• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 200, comments - 8, trackbacks - 0, articles - 0

            HBase簡介(很好的梳理資料)

            Posted on 2013-06-07 22:14 鑫龍 閱讀(337) 評論(0)  編輯 收藏 引用 所屬分類: HBASE

            一、 簡介

            history

            started by chad walters and jim

            2006.11 G release paper on BigTable

            2007.2 inital HBase prototype created as Hadoop contrib

            2007.10 First useable Hbase

            2008.1 Hadoop become Apache top-level project and Hbase becomes subproject

            2008.10 Hbase 0.18,0.19 released

             

            hbase是bigtable的開源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數據庫系統。

            它介于nosql和RDBMS之間,僅能通過主鍵(row key)和主鍵的range來檢索數據,僅支持單行事務(可通過hive支持來實現多表join等復雜操作)。主要用來存儲非結構化和半結構化的松散數據。

            與hadoop一樣,Hbase目標主要依靠橫向擴展,通過不斷增加廉價的商用服務器,來增加計算和存儲能力。

             

            HBase中的表一般有這樣的特點:

            1 大:一個表可以有上億行,上百萬列

            2 面向列:面向列(族)的存儲和權限控制,列(族)獨立檢索。

            3 稀疏:對于為空(null)的列,并不占用存儲空間,因此,表可以設計的非常稀疏。

             

            下面一幅圖是Hbase在Hadoop Ecosystem中的位置。




            二、 邏輯視圖


            HBase以表的形式存儲數據。表有行和列組成。列劃分為若干個列族(row family)

            Row Keycolumn-family1column-family2column-family3
            column1column1column1column2column3column1
            key1t1:abc
            t2:gdxdf
            t4:dfads
            t3:hello
            t2:world
            key2t3:abc
            t1:gdxdf
            t4:dfads
            t3:hello
            t2:dfdsfa
            t3:dfdf
            key3t2:dfadfasd
            t1:dfdasddsf
            t2:dfxxdfasd

            t1:taobao.com

             

            Row Key

            與nosql數據庫們一樣,row key是用來檢索記錄的主鍵。訪問hbase table中的行,只有三種方式:

            1 通過單個row key訪問

            2 通過row key的range

            3 全表掃描

            Row key行鍵 (Row key)可以是任意字符串(最大長度是 64KB,實際應用中長度一般為 10-100bytes),在hbase內部,row key保存為字節數組。

            存儲時,數據按照Row key的字典序(byte order)排序存儲。設計key時,要充分排序存儲這個特性,將經常一起讀取的行存儲放到一起。(位置相關性)

            注意:

            字典序對int排序的結果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序,行鍵必須用0作左填充。

            行的一次讀寫是原子操作 (不論一次讀寫多少列)。這個設計決策能夠使用戶很容易的理解程序在對同一個行進行并發更新操作時的行為。

             

            列族

            hbase表中的每個列,都歸屬與某個列族。列族是表的chema的一部分(而列不是),必須在使用表之前定義。列名都以列族作為前綴。例如courses:history , courses:math 都屬于 courses 這個列族。

            訪問控制、磁盤和內存的使用統計都是在列族層面進行的。實際應用中,列族上的控制權限能 幫助我們管理不同類型的應用:我們允許一些應用可以添加新的基本數據、一些應用可以讀取基本數據并創建繼承的列族、一些應用則只允許瀏覽數據(甚至可能因 為隱私的原因不能瀏覽所有數據)。

             

            時間戳

            HBase中通過row和columns確定的為一個存貯單元稱為cell。每個 cell都保存著同一份數據的多個版本。版本通過時間戳來索引。時間戳的類型是 64位整型。時間戳可以由hbase(在數據寫入時自動 )賦值,此時時間戳是精確到毫秒的當前系統時間。時間戳也可以由客戶顯式賦值。如果應用程序要避免數據版本沖突,就必須自己生成具有唯一性的時間戳。每個 cell中,不同版本的數據按照時間倒序排序,即最新的數據排在最前面。

            為了避免數據存在過多版本造成的的管理 (包括存貯和索引)負擔,hbase提供了兩種數據版本回收方式。一是保存數據的最后n個版本,二是保存最近一段時間內的版本(比如最近七天)。用戶可以針對每個列族進行設置。

             

            Cell

            {row key, column( =<family> + <label>), version} 唯一確定的單元。cell中的數據是沒有類型的,全部是字節碼形式存貯。

             

            三、 物理存儲

            1 已經提到過,Table中的所有行都按照row key的字典序排列。

            2 Table 在行的方向上分割為多個Hregion。


            3 region按大小分割的,每個表一開始只有一個region,隨著數據不斷插入表,region不斷增大,當增大到一個閥值的時候,Hregion就會等分會兩個新的Hregion。當table中的行不斷增多,就會有越來越多的Hregion。

            4 Hregion是Hbase中分布式存儲和負載均衡的最小單元。最小單元就表示不同的Hregion可以分布在不同的HRegion server上。但一個Hregion是不會拆分到多個server上的。

            5 HRegion雖然是分布式存儲的最小單元,但并不是存儲的最小單元。

            事實上,HRegion由一個或者多個Store組成,每個store保存一個columns family。

            每個Strore又由一個memStore和0至多個StoreFile組成。如圖:

            StoreFile以HFile格式保存在HDFS上。




            HFile分為六個部分:

            Data Block 段–保存表中的數據,這部分可以被壓縮

            Meta Block 段 (可選的)–保存用戶自定義的kv對,可以被壓縮。

            File Info 段–Hfile的元信息,不被壓縮,用戶也可以在這一部分添加自己的元信息。

            Data Block Index 段–Data Block的索引。每條索引的key是被索引的block的第一條記錄的key。

            Meta Block Index段 (可選的)–Meta Block的索引。

            Trailer–這一段是定長的。保存了每一段的偏移量,讀取一個HFile時,會首先 讀取Trailer,Trailer保存了每個段的起始位置(段的Magic Number用來做安全check),然后,DataBlock Index會被讀取到內存中,這樣,當檢索某個key時,不需要掃描整個HFile,而只需從內存中找到key所在的block,通過一次磁盤io將整個 block讀取到內存中,再找到需要的key。DataBlock Index采用LRU機制淘汰。

            HFile的Data Block,Meta Block通常采用壓縮方式存儲,壓縮之后可以大大減少網絡IO和磁盤IO,隨之而來的開銷當然是需要花費cpu進行壓縮和解壓縮。

            目標Hfile的壓縮支持兩種方式:Gzip,Lzo。

             

            HLog(WAL log)

            WAL 意為Write ahead log(http://en.wikipedia.org/wiki/Write-ahead_logging),類似mysql中的binlog,用來 做災難恢復只用,Hlog記錄數據的所有變更,一旦數據修改,就可以從log中進行恢復。

            每個Region Server維護一個Hlog,而不是每個Region一個。這樣不同region(來自不同table)的日志會混在一起,這樣做的目的是不斷追加單個 文件相對于同時寫多個文件而言,可以減少磁盤尋址次數,因此可以提高對table的寫性能。帶來的麻煩是,如果一臺region server下線,為了恢復其上的region,需要將region server上的log進行拆分,然后分發到其它region server上進行恢復。

            HLog文件就是一個普通的Hadoop Sequence File,Sequence File 的Key是HLogKey對象,HLogKey中記錄了寫入數據的歸屬信息,除了table和region名字外,同時還包括 sequence number和timestamp,timestamp是”寫入時間”,sequence number的起始值為0,或者是最近一次存入文件系統中sequence number。HLog Sequece File的Value是HBase的KeyValue對象,即對應HFile中的KeyValue,可參見上文描述。

             

            四、 系統架構


            Client

            1 包含訪問hbase的接口,client維護著一些cache來加快對hbase的訪問,比如regione的位置信息。

             

            Zookeeper

            1 保證任何時候,集群中只有一個master

            2 存貯所有Region的尋址入口。

            3 實時監控Region Server的狀態,將Region server的上線和下線信息實時通知給Master

            4 存儲Hbase的schema,包括有哪些table,每個table有哪些column family

             

            Master

            1 為Region server分配region

            2 負責region server的負載均衡

            3 發現失效的region server并重新分配其上的region

            4 GFS上的垃圾文件回收

            5 處理schema更新請求

             

            Region Server

            1 Region server維護Master分配給它的region,處理對這些region的IO請求

            2 Region server負責切分在運行過程中變得過大的region

            可以看到,client訪問hbase上數據的過程并不需要master參與(尋址訪問zookeeper和region server,數據讀寫訪問regione server),master僅僅維護者table和region的元數據信息,負載很低。

             

            五、關鍵算法 / 流程

            region定位

            系統如何找到某個row key (或者某個 row key range)所在的region

            bigtable 使用三層類似B+樹的結構來保存region位置。

            第一層是保存zookeeper里面的文件,它持有root region的位置。

            第二層root region是.META.表的第一個region其中保存了.META.z表其它region的位置。通過root region,我們就可以訪問.META.表的數據。

            .META.是第三層,它是一個特殊的表,保存了hbase中所有數據表的region 位置信息。



            說明:

            1 root region永遠不會被split,保證了最需要三次跳轉,就能定位到任意region 。

            2.META.表每行保存一個region的位置信息,row key 采用表名+表的最后一樣編碼而成。

            3 為了加快訪問,.META.表的全部region都保存在內存中。

            假設,.META.表的一行在內存中大約占用1KB。并且每個region限制為128MB。

            那么上面的三層結構可以保存的region數目為:

            (128MB/1KB) * (128MB/1KB) = = 2(34)個region

            4 client會將查詢過的位置信息保存緩存起來,緩存不會主動失效,因此如果client上的緩存全部失效,則需要進行6次網絡來回,才能定位到正確的region(其中三次用來發現緩存失效,另外三次用來獲取位置信息)。

             

            讀寫過程

            上文提到,hbase使用MemStore和StoreFile存儲對表的更新。

            數據在更新時首先寫入Log(WAL log)和內存(MemStore)中,MemStore中的數據是排序的,當MemStore累計到一定閾值時,就會創建一個新的MemStore,并 且將老的MemStore添加到flush隊列,由單獨的線程flush到磁盤上,成為一個StoreFile。于此同時,系統會在zookeeper中 記錄一個redo point,表示這個時刻之前的變更已經持久化了。(minor compact)

            當系統出現意外時,可能導致內存(MemStore)中的數據丟失,此時使用Log(WAL log)來恢復checkpoint之后的數據。

            前面提到過StoreFile是只讀的,一旦創建后就不可以再修改。因此Hbase的更 新其實是不斷追加的操作。當一個Store中的StoreFile達到一定的閾值后,就會進行一次合并(major compact),將對同一個key的修改合并到一起,形成一個大的StoreFile,當StoreFile的大小達到一定閾值后,又會對 StoreFile進行split,等分為兩個StoreFile。

            由于對表的更新是不斷追加的,處理讀請求時,需要訪問Store中全部的 StoreFile和MemStore,將他們的按照row key進行合并,由于StoreFile和MemStore都是經過排序的,并且StoreFile帶有內存中索引,合并的過程還是比較快。

            寫請求處理過程



            1 client向region server提交寫請求

            2 region server找到目標region

            3 region檢查數據是否與schema一致

            4 如果客戶端沒有指定版本,則獲取當前系統時間作為數據版本

            5 將更新寫入WAL log

            6 將更新寫入Memstore

            7 判斷Memstore的是否需要flush為Store文件。

             

            region分配

            任何時刻,一個region只能分配給一個region server。master記錄了當前有哪些可用的region server。以及當前哪些region分配給了哪些region server,哪些region還沒有分配。當存在未分配的region,并且有一個region server上有可用空間時,master就給這個region server發送一個裝載請求,把region分配給這個region server。region server得到請求后,就開始對此region提供服務。

             

            region server上線

            master使用zookeeper來跟蹤region server狀態。當某個region server啟動時,會首先在zookeeper上的server目錄下建立代表自己的文件,并獲得該文件的獨占鎖。由于master訂閱了server 目錄上的變更消息,當server目錄下的文件出現新增或刪除操作時,master可以得到來自zookeeper的實時通知。因此一旦region server上線,master能馬上得到消息。

             

            region server下線

            當region server下線時,它和zookeeper的會話斷開,zookeeper而自動釋放代表這臺server的文件上的獨占鎖。而master不斷輪詢 server目錄下文件的鎖狀態。如果master發現某個region server丟失了它自己的獨占鎖,(或者master連續幾次和region server通信都無法成功),master就是嘗試去獲取代表這個region server的讀寫鎖,一旦獲取成功,就可以確定:

            1 region server和zookeeper之間的網絡斷開了。

            2 region server掛了。

            的其中一種情況發生了,無論哪種情況,region server都無法繼續為它的region提供服務了,此時master會刪除server目錄下代表這臺region server的文件,并將這臺region server的region分配給其它還活著的同志。

            如果網絡短暫出現問題導致region server丟失了它的鎖,那么region server重新連接到zookeeper之后,只要代表它的文件還在,它就會不斷嘗試獲取這個文件上的鎖,一旦獲取到了,就可以繼續提供服務。

             

            master上線

            master啟動進行以下步驟:

            1 從zookeeper上獲取唯一一個代碼master的鎖,用來阻止其它master成為master。

            2 掃描zookeeper上的server目錄,獲得當前可用的region server列表。

            3 和2中的每個region server通信,獲得當前已分配的region和region server的對應關系。

            4 掃描.META.region的集合,計算得到當前還未分配的region,將他們放入待分配region列表。

             

            master下線

            由于master只維護表和region的元數據,而不參與表數據IO的過 程,master下線僅導致所有元數據的修改被凍結(無法創建刪除表,無法修改表的schema,無法進行region的負載均衡,無法處理region 上下線,無法進行region的合并,唯一例外的是region的split可以正常進行,因為只有region server參與),表的數據讀寫還可以正常進行。因此master下線短時間內對整個hbase集群沒有影響。從上線過程可以看到,master保存的 信息全是可以冗余信息(都可以從系統其它地方收集到或者計算出來),因此,一般hbase集群中總是有一個master在提供服務,還有一個以上 的’master’在等待時機搶占它的位置。


            六、訪問接口

            • HBase Shell
            • Java clietn API
            • HBase non-java access
              • languages talking to the JVM
                • Jython interface to HBase
                • Groovy DSL for HBase
                • Scala interface to HBase
              • languages with a custom protocol
                • REST gateway specification for HBase
                • 充分利用HTTP協議:GET POST PUT DELETE

            §

                • text/plain
                • text/xml
                • application/json
                • application/x-protobuf
              • Thrift gateway specification for HBase
                • java
                • cpp
                • rb
                • py
                • perl
                • php
            • HBase Map Reduce
            • Hive/Pig

            七、結語:

            全文對 Hbase做了 簡單的介紹,有錯誤之處,敬請指正。未來將結合 Hbase 在淘寶數據平臺的應用場景,在更多細節上進行深入。


            參考文檔

            Bigtable: A Distributed Storage System for Structured Data

            HFile: A Block-Indexed File Format to Store Sorted Key-Value Pairs for a thorough introduction Hbase Architecture 101

            Hbase source code

             

            很久沒寫博客了,因為很忙,不過今天發現一篇不錯的文章,幫我梳理了下HBase,原文地址:http://www.tbdata.org/archives/1509

            久久青青草原精品国产不卡| 精品综合久久久久久98| 精品久久久久国产免费| 久久精品一区二区三区AV| 久久综合香蕉国产蜜臀AV| 色综合久久综合网观看| 亚洲国产成人久久一区久久| 久久精品国产亚洲AV无码麻豆| 精品免费久久久久国产一区| 久久这里只有精品首页| 亚洲欧美精品伊人久久| 国产精品99久久久精品无码| 国产高清美女一级a毛片久久w| 99久久精品国产一区二区| 国产真实乱对白精彩久久| 久久亚洲私人国产精品vA| 久久影院久久香蕉国产线看观看| 浪潮AV色综合久久天堂| 久久精品国产欧美日韩99热| 夜夜亚洲天天久久| 久久66热人妻偷产精品9| 亚洲欧美日韩中文久久| 色综合久久天天综线观看| 国产精品久久久天天影视香蕉| 欧美亚洲色综久久精品国产| 精品熟女少妇AV免费久久 | 久久综合九色综合网站| 色欲综合久久躁天天躁| 久久久久久国产精品免费免费| 国产精品九九九久久九九| 久久综合给久久狠狠97色| 国产69精品久久久久久人妻精品| 亚洲国产精品无码久久九九| 亚洲国产成人久久精品99 | 99久久久精品| 久久精品国产亚洲av麻豆小说 | 日韩精品久久无码人妻中文字幕| 久久婷婷五月综合成人D啪| 狠狠色丁香久久婷婷综合蜜芽五月| 人妻丰满?V无码久久不卡| 狠狠综合久久AV一区二区三区|