• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 200, comments - 8, trackbacks - 0, articles - 0

            基于Hadoop Sequencefile的小文件解決方案

            Posted on 2013-03-04 19:28 鑫龍 閱讀(870) 評(píng)論(0)  編輯 收藏 引用 所屬分類: Hadoop

            基于Hadoop Sequencefile的小文件解決方案

             

            一、 概述

               小文件是指文件size小于HDFSblock大小的文件。這樣的文件會(huì)給hadoop的擴(kuò)展性和性能帶來(lái)嚴(yán)重問(wèn)題。首先,在HDFS中,任何block,文件或者目錄在內(nèi)存中均以對(duì)象的形式存儲(chǔ),每個(gè)對(duì)象約占150byte,如果有1000 0000個(gè)小文件,每個(gè)文件占用一個(gè)block,則namenode大約需要2G空間。如果存儲(chǔ)1億個(gè)文件,則namenode需要20G空間。這樣namenode內(nèi)存容量嚴(yán)重制約了集群的擴(kuò)展。 其次,訪問(wèn)大量小文件速度遠(yuǎn)遠(yuǎn)小于訪問(wèn)幾個(gè)大文件。HDFS最初是為流式訪問(wèn)大文件開發(fā)的,如果訪問(wèn)大量小文件,需要不斷的從一個(gè)datanode跳到另一個(gè)datanode,嚴(yán)重影響性能。最后,處理大量小文件速度遠(yuǎn)遠(yuǎn)小于處理同等大小的大文件的速度。每一個(gè)小文件要占用一個(gè)slot,而task啟動(dòng)將耗費(fèi)大量時(shí)間甚至大部分時(shí)間都耗費(fèi)在啟動(dòng)task和釋放task上。

            二、Hadoop自帶的解決方案

            對(duì)于小文件問(wèn)題,Hadoop本身也提供了幾個(gè)解決方案,分別為:Hadoop ArchiveSequence fileCombineFileInputFormat

            1 Hadoop Archive

            Hadoop Archive或者HAR,是一個(gè)高效地將小文件放入HDFS塊中的文件存檔工具,它能夠?qū)⒍鄠€(gè)小文件打包成一個(gè)HAR文件,這樣在減少namenode內(nèi)存使用的同時(shí),仍然允許對(duì)文件進(jìn)行透明的訪問(wèn)。

            使用HAR時(shí)需要兩點(diǎn),第一,對(duì)小文件進(jìn)行存檔后,原文件并不會(huì)自動(dòng)被刪除,需要用戶自己刪除;第二,創(chuàng)建HAR文件的過(guò)程實(shí)際上是在運(yùn)行一個(gè)mapreduce作業(yè),因而需要有一個(gè)hadoop集群運(yùn)行此命令。

            該方案需人工進(jìn)行維護(hù),適用管理人員的操作,而且har文件一旦創(chuàng)建,Archives便不可改變,不能應(yīng)用于多用戶的互聯(lián)網(wǎng)操作。

            2 Sequence file

            sequence file由一系列的二進(jìn)制key/value組成,如果為key小文件名,value為文件內(nèi)容,則可以將大批小文件合并成一個(gè)大文件。

            Hadoop-0.21.0中提供了SequenceFile,包括WriterReaderSequenceFileSorter類進(jìn)行寫,讀和排序操作。如果hadoop版本低于0.21.0的版本,實(shí)現(xiàn)方法可參見[3]

             

            該方案對(duì)于小文件的存取都比較自由,不限制用戶和文件的多少,但是SequenceFile文件不能追加寫入,適用于一次性寫入大量小文件的操作。

             

            3CombineFileInputFormat

            CombineFileInputFormat是一種新的inputformat,用于將多個(gè)文件合并成一個(gè)單獨(dú)的split,另外,它會(huì)考慮數(shù)據(jù)的存儲(chǔ)位置。

            該方案版本比較老,網(wǎng)上資料甚少,從資料來(lái)看應(yīng)該沒有第二種方案好。

             

             

            三、小文件問(wèn)題解決方案

            在原有HDFS基礎(chǔ)上添加一個(gè)小文件處理模塊,具體操作流程如下:

                   1.   當(dāng)用戶上傳文件時(shí),判斷該文件是否屬于小文件,如果是,則交給小文件處理模塊處理,否則,交給通用文件處理模塊處理。

                   2.  在小文件模塊中開啟一定時(shí)任務(wù),其主要功能是當(dāng)模塊中文件總size大于HDFSblock大小的文件時(shí),則通過(guò)SequenceFile組件以文件名做key,相應(yīng)的文件內(nèi)容為value將這些小文件一次性寫入hdfs模塊。

                   3. 同時(shí)刪除已處理的文件,并將結(jié)果寫入數(shù)據(jù)庫(kù)。

                   4.  當(dāng)用戶進(jìn)行讀取操作時(shí),可根據(jù)數(shù)據(jù)庫(kù)中的結(jié)果標(biāo)志來(lái)讀取文件。


            轉(zhuǎn)自:http://lxm63972012.iteye.com/blog/1429011
            伊人久久大香线蕉av不卡| 久久久久亚洲av无码专区导航| 亚洲乱亚洲乱淫久久| 亚洲日韩欧美一区久久久久我 | 久久香蕉超碰97国产精品| 好久久免费视频高清| 伊人久久大香线蕉无码麻豆| 99久久超碰中文字幕伊人| 99久久婷婷国产综合精品草原| 久久亚洲AV无码精品色午夜| 韩国三级大全久久网站| 97精品伊人久久久大香线蕉| 久久久WWW成人免费毛片| 婷婷伊人久久大香线蕉AV| 久久影院亚洲一区| 蜜桃麻豆www久久| 一本一本久久aa综合精品| 久久久WWW成人| 久久久久国产精品嫩草影院| 国产精品9999久久久久| 99久久精品免费看国产一区二区三区 | 久久电影网一区| 中文字幕乱码久久午夜| 亚洲精品无码久久久| 国产亚洲精久久久久久无码AV| 9久久9久久精品| 精品久久久久久中文字幕人妻最新| 久久午夜夜伦鲁鲁片免费无码影视 | 欧美久久久久久精选9999| 人人狠狠综合久久亚洲婷婷| 97久久综合精品久久久综合| 欧洲成人午夜精品无码区久久| 久久精品国产亚洲AV忘忧草18| 无码人妻少妇久久中文字幕| 无码精品久久一区二区三区| 免费精品久久久久久中文字幕| 久久996热精品xxxx| 久久男人中文字幕资源站| 色婷婷综合久久久久中文字幕| 日产久久强奸免费的看| 亚洲国产成人精品女人久久久 |