• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 15, comments - 10, trackbacks - 0, articles - 0

            Orcfile文件格式解析(1)

            Posted on 2013-08-14 23:12 whspecial 閱讀(6746) 評論(0)  編輯 收藏 引用 所屬分類: hadoop

                Orcfile(Optimized Row Columnar)是hive 0.11版里引入的新的存儲格式,是對之前的RCFile存儲格式的優(yōu)化。寫這個的哥們來自于HortonWorks,代碼寫的很不錯,比之前的rcfile強多了(據(jù)說rcfile是個中科院的童鞋跑去facebook寫的,看來中國的計算機教育水平還是有限啊。。。囧,跑題了)

                先介紹下Orc的文件格式,截一張官方的圖:

                可以看到每個Orc文件由1個或多個stripe組成,每個stripe250MB大小,這個Stripe實際相當于之前的rcfile里的RowGroup概念,不過大小由4MB->250MB,這樣應該能提升順序讀的吞吐率。每個Stripe里有三部分組成,分別是Index Data,Row Data,Stripe Footer:

                1,Index Data:一個輕量級的index,默認是每隔1W行做一個索引。這里做的索引應該只是記錄某行的各字段在Row Data中的offset,據(jù)說還包括每個Column的max和min值,具體沒細看代碼。

                2,Row Data:存的是具體的數(shù)據(jù),和RCfile一樣,先取部分行,然后對這些行按列進行存儲。與RCfile不同的地方在于每個列進行了編碼,分成多個Stream來存儲,具體如何編碼在下一篇解析里會講。

                3,Stripe Footer:存的是各個Stream的類型,長度等信息。

                每個文件有一個File Footer,這里面存的是每個Stripe的行數(shù),每個Column的數(shù)據(jù)類型信息等;每個文件的尾部是一個PostScript,這里面記錄了整個文件的壓縮類型以及FileFooter的長度信息等。在讀取文件時,會seek到文件尾部讀PostScript,從里面解析到File Footer長度,再讀FileFooter,從里面解析到各個Stripe信息,再讀各個Stripe,即從后往前讀。

                接下來看下ORcfile相對于RCfile做了哪些改進,從Orc作者的ppt里截了張圖,分別解釋下各行:

                Hive type model:RCfile在底層存儲時不保存類型,都當做Byte流來存儲

                Separtor complex columns:Orc將復雜類型拆開存儲

                Splits Found Quickly:不很理解

                Default Column group size:不用解釋了

                Files per a bucket:不很理解

                Store min,max,count,sum:存了這些便于快速地skip掉一個stripe

                Versioned metadata:不很理解

                Run-Length Data-coding:整數(shù)類型做Run-Length變長編碼

                Store Strings in dictionary:String類型做字典編碼

                Store Row Count:每個Stripe會存儲行數(shù)

                Skip Compressed blocks:可以直接skip掉壓縮過的block

                Store internal indexes:存儲了一個輕量級的index


                整個Orc看下來,代碼寫的還是比較清晰明了的,而且我們也進行了測試,壓縮效果比RCfile提升了不少,有興趣的朋友可以來看下,之后會寫第二篇解析,主要是講Orc用到的幾種編碼格式。

            久久青青草原精品影院| 伊人久久大香线蕉成人| 日本免费久久久久久久网站| 久久九九亚洲精品| 亚洲а∨天堂久久精品9966| 久久99热这里只有精品国产| 国产成人精品白浆久久69| 国产精品欧美久久久久无广告| 欧美性猛交xxxx免费看久久久| 久久久久亚洲AV无码永不| 久久久WWW成人免费精品| 国产午夜免费高清久久影院| 欧美亚洲另类久久综合婷婷 | 久久人妻无码中文字幕| 久久精品国产亚洲av影院| 久久99国产一区二区三区| 色婷婷综合久久久久中文| 日本精品久久久久影院日本| 成人免费网站久久久| 无码日韩人妻精品久久蜜桃 | 久久亚洲精品人成综合网| 久久精品无码一区二区日韩AV| 久久久久亚洲AV无码麻豆| 久久久久亚洲精品日久生情 | 亚洲成人精品久久| 久久精品亚洲精品国产色婷 | 国产亚洲美女精品久久久2020| 精品久久久久久久中文字幕| 热99re久久国超精品首页| 久久久久亚洲AV成人片| 久久水蜜桃亚洲av无码精品麻豆| 久久久久亚洲国产| 伊人久久一区二区三区无码| 久久久久国产| 亚洲AV伊人久久青青草原| 久久亚洲国产成人影院| 伊人久久无码精品中文字幕| 久久人妻AV中文字幕| 久久久噜噜噜www成人网| 久久精品国产亚洲欧美| 久久综合久久久|