久久国产精品偷99,国产亚洲精久久久久久无码77777,久久se这里只有精品

基于Hadoop Sequencefile的小文件解決方案

Posted on 2013-03-04 19:28 鑫龍閱讀(870) 評(píng)論(0) 編輯收藏引用所屬分類: Hadoop

基于Hadoop Sequencefile的小文件解決方案

一、概述

小文件是指文件size小于HDFS上block大小的文件。這樣的文件會(huì)給hadoop的擴(kuò)展性和性能帶來(lái)嚴(yán)重問(wèn)題。首先，在HDFS中，任何block，文件或者目錄在內(nèi)存中均以對(duì)象的形式存儲(chǔ)，每個(gè)對(duì)象約占150byte，如果有1000 0000個(gè)小文件，每個(gè)文件占用一個(gè)block，則namenode大約需要2G空間。如果存儲(chǔ)1億個(gè)文件，則namenode需要20G空間。這樣namenode內(nèi)存容量嚴(yán)重制約了集群的擴(kuò)展。其次，訪問(wèn)大量小文件速度遠(yuǎn)遠(yuǎn)小于訪問(wèn)幾個(gè)大文件。HDFS最初是為流式訪問(wèn)大文件開發(fā)的，如果訪問(wèn)大量小文件，需要不斷的從一個(gè)datanode跳到另一個(gè)datanode，嚴(yán)重影響性能。最后，處理大量小文件速度遠(yuǎn)遠(yuǎn)小于處理同等大小的大文件的速度。每一個(gè)小文件要占用一個(gè)slot，而task啟動(dòng)將耗費(fèi)大量時(shí)間甚至大部分時(shí)間都耗費(fèi)在啟動(dòng)task和釋放task上。

二、Hadoop自帶的解決方案

對(duì)于小文件問(wèn)題，Hadoop本身也提供了幾個(gè)解決方案，分別為：Hadoop Archive，Sequence file和CombineFileInputFormat。

（1） Hadoop Archive

Hadoop Archive或者HAR，是一個(gè)高效地將小文件放入HDFS塊中的文件存檔工具，它能夠?qū)⒍鄠€(gè)小文件打包成一個(gè)HAR文件，這樣在減少namenode內(nèi)存使用的同時(shí)，仍然允許對(duì)文件進(jìn)行透明的訪問(wèn)。

使用HAR時(shí)需要兩點(diǎn)，第一，對(duì)小文件進(jìn)行存檔后，原文件并不會(huì)自動(dòng)被刪除，需要用戶自己刪除；第二，創(chuàng)建HAR文件的過(guò)程實(shí)際上是在運(yùn)行一個(gè)mapreduce作業(yè)，因而需要有一個(gè)hadoop集群運(yùn)行此命令。

該方案需人工進(jìn)行維護(hù)，適用管理人員的操作，而且har文件一旦創(chuàng)建，Archives便不可改變，不能應(yīng)用于多用戶的互聯(lián)網(wǎng)操作。

（2） Sequence file

sequence file由一系列的二進(jìn)制key/value組成，如果為key小文件名，value為文件內(nèi)容，則可以將大批小文件合并成一個(gè)大文件。

Hadoop-0.21.0中提供了SequenceFile，包括Writer，Reader和SequenceFileSorter類進(jìn)行寫，讀和排序操作。如果hadoop版本低于0.21.0的版本，實(shí)現(xiàn)方法可參見[3]。

該方案對(duì)于小文件的存取都比較自由，不限制用戶和文件的多少，但是SequenceFile文件不能追加寫入，適用于一次性寫入大量小文件的操作。

（3）CombineFileInputFormat

CombineFileInputFormat是一種新的inputformat，用于將多個(gè)文件合并成一個(gè)單獨(dú)的split，另外，它會(huì)考慮數(shù)據(jù)的存儲(chǔ)位置。

該方案版本比較老，網(wǎng)上資料甚少，從資料來(lái)看應(yīng)該沒有第二種方案好。

三、小文件問(wèn)題解決方案

在原有HDFS基礎(chǔ)上添加一個(gè)小文件處理模塊，具體操作流程如下:

1. 當(dāng)用戶上傳文件時(shí)，判斷該文件是否屬于小文件，如果是，則交給小文件處理模塊處理，否則，交給通用文件處理模塊處理。

2. 在小文件模塊中開啟一定時(shí)任務(wù)，其主要功能是當(dāng)模塊中文件總size大于HDFS上block大小的文件時(shí)，則通過(guò)SequenceFile組件以文件名做key，相應(yīng)的文件內(nèi)容為value將這些小文件一次性寫入hdfs模塊。

3. 同時(shí)刪除已處理的文件，并將結(jié)果寫入數(shù)據(jù)庫(kù)。

4. 當(dāng)用戶進(jìn)行讀取操作時(shí)，可根據(jù)數(shù)據(jù)庫(kù)中的結(jié)果標(biāo)志來(lái)讀取文件。

轉(zhuǎn)自:http://lxm63972012.iteye.com/blog/1429011

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
【推薦】100%開源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: hadoop0.20.2在eclipse中的編譯在HADOOP中使用MRUNIT進(jìn)行單元測(cè)試 Mapreduce-Partition分析 hadoop namenode啟動(dòng)過(guò)程詳細(xì)剖析及瓶頸分析 hadoop二次排序 (Map/Reduce中分區(qū)和分組的問(wèn)題) hadoop面試時(shí)可能遇到的問(wèn)題基于Hadoop Sequencefile的小文件解決方案 hadoop jar xxxx.jar的流程 hadoop 序列化源碼淺析 (轉(zhuǎn)) HADOOP_CLASSPATH設(shè)置(轉(zhuǎn))

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問(wèn) Chat2DB 管理

mysileng

導(dǎo)航

常用鏈接

留言簿

隨筆分類

隨筆檔案

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

基于Hadoop Sequencefile的小文件解決方案