久久久久久久综合日本,亚洲国产成人久久综合一 ,久久不射电影网

基于Hadoop Sequencefile的小文件解決方案

Posted on 2013-03-04 19:28 鑫龍閱讀(869) 評論(0) 編輯收藏引用所屬分類: Hadoop

基于Hadoop Sequencefile的小文件解決方案

一、概述

小文件是指文件size小于HDFS上block大小的文件。這樣的文件會給hadoop的擴展性和性能帶來嚴重問題。首先，在HDFS中，任何block，文件或者目錄在內存中均以對象的形式存儲，每個對象約占150byte，如果有1000 0000個小文件，每個文件占用一個block，則namenode大約需要2G空間。如果存儲1億個文件，則namenode需要20G空間。這樣namenode內存容量嚴重制約了集群的擴展。其次，訪問大量小文件速度遠遠小于訪問幾個大文件。HDFS最初是為流式訪問大文件開發的，如果訪問大量小文件，需要不斷的從一個datanode跳到另一個datanode，嚴重影響性能。最后，處理大量小文件速度遠遠小于處理同等大小的大文件的速度。每一個小文件要占用一個slot，而task啟動將耗費大量時間甚至大部分時間都耗費在啟動task和釋放task上。

二、Hadoop自帶的解決方案

對于小文件問題，Hadoop本身也提供了幾個解決方案，分別為：Hadoop Archive，Sequence file和CombineFileInputFormat。

（1） Hadoop Archive

Hadoop Archive或者HAR，是一個高效地將小文件放入HDFS塊中的文件存檔工具，它能夠將多個小文件打包成一個HAR文件，這樣在減少namenode內存使用的同時，仍然允許對文件進行透明的訪問。

使用HAR時需要兩點，第一，對小文件進行存檔后，原文件并不會自動被刪除，需要用戶自己刪除；第二，創建HAR文件的過程實際上是在運行一個mapreduce作業，因而需要有一個hadoop集群運行此命令。

該方案需人工進行維護，適用管理人員的操作，而且har文件一旦創建，Archives便不可改變，不能應用于多用戶的互聯網操作。

（2） Sequence file

sequence file由一系列的二進制key/value組成，如果為key小文件名，value為文件內容，則可以將大批小文件合并成一個大文件。

Hadoop-0.21.0中提供了SequenceFile，包括Writer，Reader和SequenceFileSorter類進行寫，讀和排序操作。如果hadoop版本低于0.21.0的版本，實現方法可參見[3]。

該方案對于小文件的存取都比較自由，不限制用戶和文件的多少，但是SequenceFile文件不能追加寫入，適用于一次性寫入大量小文件的操作。

（3）CombineFileInputFormat

CombineFileInputFormat是一種新的inputformat，用于將多個文件合并成一個單獨的split，另外，它會考慮數據的存儲位置。

該方案版本比較老，網上資料甚少，從資料來看應該沒有第二種方案好。

三、小文件問題解決方案

在原有HDFS基礎上添加一個小文件處理模塊，具體操作流程如下:

1. 當用戶上傳文件時，判斷該文件是否屬于小文件，如果是，則交給小文件處理模塊處理，否則，交給通用文件處理模塊處理。

2. 在小文件模塊中開啟一定時任務，其主要功能是當模塊中文件總size大于HDFS上block大小的文件時，則通過SequenceFile組件以文件名做key，相應的文件內容為value將這些小文件一次性寫入hdfs模塊。

3. 同時刪除已處理的文件，并將結果寫入數據庫。

4. 當用戶進行讀取操作時，可根據數據庫中的結果標志來讀取文件。

轉自:http://lxm63972012.iteye.com/blog/1429011

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: hadoop0.20.2在eclipse中的編譯在HADOOP中使用MRUNIT進行單元測試 Mapreduce-Partition分析 hadoop namenode啟動過程詳細剖析及瓶頸分析 hadoop二次排序 (Map/Reduce中分區和分組的問題) hadoop面試時可能遇到的問題基于Hadoop Sequencefile的小文件解決方案 hadoop jar xxxx.jar的流程 hadoop 序列化源碼淺析 (轉) HADOOP_CLASSPATH設置(轉)

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

mysileng

導航

常用鏈接

留言簿

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜

基于Hadoop Sequencefile的小文件解決方案