日韩十八禁一区二区久久,久久久久久夜精品精品免费啦,久久亚洲精品无码AV红樱桃

Hadoop学习�W�记一 ��要介�l?

pear_li — Thu, 03 Sep 2009 02:58:00 GMT

    �q�里先大致介�l�一下Hadoop.
    本文大部分内定w��是从官网Hadoop上来的。其中有一��?/span>介绍HDFS的pdf文档�Q�里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习�W�记也是�?/span>�q�里一步一步进行下来的�Q�同时又参考了�|�上的很多文章，对学习Hadoop中遇到的问题�q�行了归�U�x�ȝ��?br>    �a�归正传，先说一下Hadoop的来龙去脉。谈到Hadoop��׃��得不提到Lucene�?/span>Nutch。首先，Lucene�q�不是一个应用程序，而是提供了一个纯Java的高性能全文索引引擎工具�?/span>�Q�它可以方便的嵌入到各种实际应用中实现全文搜�?索引功能�?span style="COLOR: #0000ff">Nutch是一个应用程序，是一个以Lucene为基��实现的搜索引擎应�?/span>�Q�Lucene为Nutch提供了文本搜索和索引的API�Q�Nutch不光有搜索的功能�Q�还有数据抓取的功能。在nutch0.8.0版本之前�Q�Hadoop�q�属于Nutch的一部分�Q�而从nutch0.8.0开始，��其中实现的NDFS和MapReduce剥离出来成立一个新的开源项目，�q�就是Hadoop�Q�而nutch0.8.0版本较之以前的Nutch在架构上有了�Ҏ��性的变化�Q�那��是完全构徏在Hadoop的基��之上了。在Hadoop中实��C��Google的GFS和MapReduce��法�Q��Hadoop成�ؓ了一个分布式的计��^台�?br>   其实�Q�Hadoop�q�不仅仅是一个用于存储的分布式文件系�l�，而是设计用来在由通用计算讑֤��l�成的大型集��上执行分布式应用的框架�?br>
   Hadoop包含两个部分�Q?/span>

   1、HDFS

      即Hadoop Distributed File System (Hadoop分布式文件系�l?
      HDFS��h��高容错性，�q�且可以被部�|�在低�h的硬件设备之上。HDFS很适合那些有大数据集的应用�Q��ƈ且提供了�Ҏ��据读写的高吞吐率。HDFS是一个master/slave的结构，��通常的部�|�来��_��在master上只�q�行一个Namenode�Q�而在每一个slave上运行一个Datanode�?br>      HDFS支持传统的层�ơ文件组�l�结构，同现有的一些文件系�l�在操作上很�c�M��Q�比如你可以创徏和删除一个文�Ӟ��把一个文件从一个目录移到另一个目录，重命名等�{�操作。Namenode��理着整个分布式文件系�l�，�Ҏ��件系�l�的操作�Q�如建立、删除文件和文�g夹）都是通过Namenode来控制�?nbsp;
     下面是HDFS的结构：

      从上面的图中可以看出�Q�Namenode�Q�Datanode�Q�Client之间的通信都是建立在TCP/IP的基��之上的。当Client要执行一个写入的操作的时候，命��o不是马上��发送到Namenode�Q�Client首先在本��Z��临时文�g夹中�~�存�q�些数据�Q�当临时文�g夹中的数据块辑ֈ�了设定的Block的��|��默认�?4M�Q�时�Q�Client便会通知Namenode�Q�Namenode便响应Client的RPC��h��Q�将文�g名插入文件系�l�层�ơ中�q�且在Datanode中找��C��块存放该数据的block�Q�同时将该Datanode及对应的数据块信息告诉Client�Q�Client便这些本��C��时文件夹中的数据块写入指定的数据节点�?br>      HDFS采取了副本策略，其目的是��Z��提高�pȝ��的可靠性，可用性。HDFS的副本放�|�策略是三个副本�Q�一个放在本节点上，一个放在同一机架中的另一个节点上�Q�还有一个副本放在另一个不同的机架中的一个节点上。当前版本的hadoop0.12.0中还没有实现�Q�但是正在进行中�Q�相信不久就可以出来了�?br>
   2、MapReduce的实�?br>
      MapReduce是Google 的一��w��要技术，它是一个编�E�模型，用以�q�行大数据量的计��。对于大数据量的计算�Q�通常采用的处理手法就是�ƈ行计��。至��现阶段而言�Q�对许多开发�h员来��_��q�行计算�q�是一个比较遥�q�的东西。MapReduce��是一�U�简化�ƈ行计��的�~�程模型�Q�它让那些没有多��ƈ行计��经验的开发�h员也可以开发�ƈ行应用�?br>      MapReduce的名字源于这个模型中的两��Ҏ��心操作：Map�?Reduce。也许熟悉Functional Programming�Q?/span>函数式编�E?/font>�Q�的��到这两个词会倍感亲切。简单的说来�Q�Map是把一�l�数据一对一的映��ؓ另外的一�l�数据，其映��的规则�׃��个函数来指定�Q�比如对[1, 2, 3, 4]�q�行�?的映��就变成了[2, 4, 6, 8]。Reduce是对一�l�数据进行归�U�，�q�个归约的规则由一个函数指定，比如对[1, 2, 3, 4]�q�行求和的归�U�得到结果是10�Q�而对它进行求�U�的归约�l�果�?4�?br>      关于MapReduce的内容，��看看孟岩的这��?/span>MapReduce:The Free Lunch Is Not Over!

   好了�Q�作��个系列的�W�一��就写这么多了，我也是刚开始接触Hadoop�Q�下一��就是讲Hadoop的部�|Ԍ��谈谈我在部��vHadoop旉��到的问题�Q�也�l�大家一个参考，��走点弯路�?/span>

pear_li 2009-09-03 10:58 发表评论

Map Reduce - the Free Lunch is not over?

pear_li — Thu, 03 Sep 2009 02:43:00 GMT

Map Reduce - the Free Lunch is not over?

by Meng Yan on Nov.15, 2006, under Other

微��Y著名的C++大师Herb Sutter�?005�q�初的时候曾�l�写�q�一��重量��的文章：”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“�Q�预�a�OO之后软�g开发将要面临的又一�ơ重大变�?�q�行计算�?/p>

摩尔定律�l�制下的软�g开发时代有一个非常有意思的现象�Q?#8221;Andy giveth, and Bill taketh away.”。不��CPU的主频有多快�Q�我们始�l�有办法来利用它�Q�而我们也陉��在机器升�U�带来的�E�序性能提高中�?/p>

我记着我大二的时候曾�l�做�q�一个五子棋的程序，当时的算法就是预先设计一些棋型（有优先��Q�，然后扫描��盘�Q�对形势�q�行分析�Q�看看当前走哪部对自己最重要。当然下��还要堵别�h�Q�这��需要互换双方的��型再计��。如果只��一步，很可能被狡猾的对手欺骗，所以�ؓ了多惛_��步，�q�需要递归和回朔。在当时的机器上�Q�算3步就基本上需�?�U�左右的旉��了。后来大学毕业收拾东西的时候找到这个程序，试了一下，发现��?0步需要的旉��也基本上感觉不出来了�?/p>

不知道你是否有同��L��l�历�Q�我们不知不觉的一直在享受着�q�样的免费午��。可是，随着摩尔定律的提前终�l�，免费的午��终�I�要�q�回厅R��虽然硬件设计师�q�在努力�Q�Hyper Threading CPU�Q�多��Z��套寄存器�Q�相当于一个逻辑CPU�Q��得Pipeline��可能满负荷�Q��多个Thread的操作有可能�q�行�Q��得多�U�程�E�序的性能�?%-15%的提升；增加Cache定w��也��得包括Single-Thread和Multi-Thread�E�序都能受益。也许这些还能帮助你一�D�|��_��但问题是�Q�我们必��d��出改变，面对�q�个卛_��到来的变革，你准备好了么�Q?/p>

Concurrency Programming != Multi-Thread Programming。很多�h都会说MultiThreading谁不会，问题是，你是��Z��么��?如何使用多线�E�的�Q�我从前做过一个类似AcdSee一��L��囑փ�查看/处理�E�序�Q�我通常用它来处理我的数码照片。我在里面用了大量的多线�E�，不过主要目的是在囑փ�处理的时候不要Block住UI�Q�所以将CPU Intensive的计��部分用后台�U�程�q�行处理。而�ƈ没有把对囑փ�矩阵的运��ƈ行分开�?/p>

我觉得Concurrency Programming真正的挑战在于Programming Model的改变，在程序员的脑子里面要对自��q��E�序怎样�q�行化有很清楚的认识�Q�更重要的是�Q�如何去实现�Q�包括架构、容错、实时监控等�{�）�q�种�q�行化，如何�?strong>调试�Q�如何去��试�?/p>

在Google�Q�每天有��量的数据需要在有限的时间内�q�行处理�Q�其实每个互联网公司都会��到�q�样的问题）�Q�每个程序员都需要进行分布式的程序开发，�q�其中包括如何分布、调度、监控以及容错等�{�。Google�?a >MapReduce正是把分布式的业务逻辑从这些复杂的�l�节中抽象出来，使得没有或者很��ƈ行开发经验的�E�序员也能进行�ƈ行应用程序的开发�?/p>

MapReduce中最重要的两个词��是Map�Q�映��）和Reduce�Q�规�U�）。初看Map/Reduce�q�两个词�Q�熟悉Function Language的�h一定感觉很熟悉。FP把这��L��函数�U�Cؓ”higher order function”�Q?#8221;High order function”被成为Function Programming的利器之一哦）�Q�也��是��_��q�些函数是编写来被与其它函数相结合（或者说被其它函数调用的�Q�。如果说��要比的化，可以把它惌��成C里面的CallBack函数�Q�或者STL里面的Functor。比如你要对一个STL的容器进行查找，需要制定每两个元素相比较的Functor�Q�Comparator�Q�，�q�个Comparator在遍历容器的时候就会被调用�?/p>

拿前面说�q�图像处理程序来举例�Q�其实大多数的图像处理操作都是对囑փ�矩阵�q�行某种�q�算。这里的�q�算通常有两�U�，一�U�是映射�Q�一�U�是规约。拿两种效果来说�Q?#8221;老照�?#8221;效果通常是强化照片的G/B��|��然后�Ҏ��个象素加一些随机的偏移�Q�这些操作在二维矩阵上的每一个元素都是独立的�Q�是Map操作。�?#8221;雕刻”效果需要提取图像边�~�，��需要元素之间的�q�算了，是一�U�Reduce操作。再举个��单的例子�Q�一个一�l�矩阵（数组�Q�[0,1,2,3,4]可以映射为[0,2,3,6,8]�Q�乘2�Q�，也可以映��ؓ[1,2,3,4,5]�Q�加1�Q�。它可以规约�?�Q�元素求�U�）也可以规�U��ؓ10�Q�元素求和）�?/p>

面对复杂问题�Q�古人教导我们要“�?/strong>�?strong>�?/strong>�?#8221;�Q�英文中对应的词�?#8221;Divide and Conquer“。Map/Reduce其实��是Divide/Conquer的过�E�，通过把问题Divide�Q��ɘq�些Divide后的Map�q�算高度�q�行�Q�再��Map后的�l�果Reduce�Q�根据某一个Key�Q�，得到最�l�的�l�果�?/p>

Googler发现�q�是问题的核心，其它都是共性问题。因此，他们把MapReduce抽象分离出来。这��P��Google的程序员可以只关心应用逻辑�Q�关心根据哪些Key把问题进行分解，哪些操作是Map操作�Q�哪些操作是Reduce操作。其它�ƈ行计��中的复杂问题诸如分布、工作调度、容错、机器间通信都交�l�Map/Reduce Framework��d��Q�很大程度上��化了整个�~�程模型�?/p>

MapReduce的另一个特�Ҏ��Q�Map和Reduce�?strong>输入和输出都是中间��时文�?/strong>�Q�MapReduce利用Google文�g�pȝ��来管理和讉K��q�些文�g�Q�，而不是不同进�E�间或者不同机器间的其它通信方式。我觉得�Q�这是Google一贯的风格�Q�化�J��ؓ��Q�返璞归真�?/p>

接下来就放下其它�Q�研�I�一下Map/Reduce操作。（其它比如定w��、备份�Q务也有很�l�典的经验和实现�Q�论文里面都有详�q�ͼ�

Map的定义：

Map, written by the user, takes an input pair and produces a set of intermediate key/value pairs. The MapReduce library groups together all intermediate values associated with the same intermediate key I and passes them to the Reduce function.

Reduce的定义：

The Reduce function, also written by the user, accepts an intermediate key I and a set of values for that key. It merges together these values to form a possibly smaller set of values. Typically just zero or one output value is produced per Reduce invocation. The intermediate values are supplied to the user’s reduce function via an iterator. This allows us to handle lists of values that are too large to fit in memory.

MapReduce论文中给��Z��q�样一个例子：在一个文档集合中�l�计每个单词出现的次数�?/p>
Map操作的输入是每一��文档，��输入文档中每一个单词的出现输出��C��间文件中厅R�?/p>

map(String key, String value):
    // key: document name
    // value: document contents
    for each word w in value:
        EmitIntermediate(w, “1″);

比如我们有两��文档，内容分别�?/p>
A �Q?“I love programming”

B �Q?“I am a blogger, you are also a blogger”�?/p>
B文档�l�过Map�q�算后输出的中间文�g��会是：

I,1 am,1 a,1 blogger,1 you,1 are,1 a,1 blogger,1

Reduce操作的输入是单词和出现次数的序列。用上面的例子来��_��是 (”I”, [1, 1]), (”love”, [1]), (”programming”, [1]), (”am”, [1]), (”a”, [1,1]) �{�。然后根据每个单词，��出�ȝ��出现�ơ数�?/p>

reduce(String key, Iterator values):
    // key: a word
    // values: a list of counts
    int result = 0;
    for each v in values:
        result += ParseInt(v);
    Emit(AsString(result));

最后输出的最�l�结果就会是�Q?”I”, 2″), (”a”, 2″)……

实际的执行顺序是�Q?/p>

MapReduce Library��Input分成M份。这里的Input Splitter也可以是多台机器�q�行Split�?
Master��M份Job分给Idle状态的M个worker来处理；
对于输入中的每一�?lt;key, value> pair �q�行Map操作�Q�将中间�l�果Buffer在Memory里；

定期的（或者根据内存状态）�Q�将Buffer中的中间信息Dump�?strong>本地��盘上，�q�且把文件信息传回给Master�Q�Master需要把�q�些信息发送给Reduce worker�Q�。这里最重要的一�Ҏ��Q?strong>在写��盘的时候，需要将中间文�g做Partition�Q�比如R个）。拿上面的例子来举例�Q�如果把所有的信息存到一个文�Ӟ��Reduce worker又会变成瓉��。我们只需要保�?strong>相同Key能出现在同一个Partition里面��可以把�q�个问题分解�?
R个Reduce worker开始工作，从不同的Map worker的Partition那里拿到数据�Q?strong>read the buffered data from the local disks of the map workers�Q�，用key�q�行排序�Q�如果内存中放不下需要用到外部排�?- external sort�Q�。很昄��Q�排序（或者说Group�Q�是Reduce函数之前必须做的一步�?�q�里面很关键的是�Q�每个Reduce worker会去从很多Map worker那里拿到X(0Reduce worker遍历中间数据�Q�对每一个唯一Key�Q�执行Reduce函数�Q�参数是�q�个key以及相对应的一�p�d��Value�Q��?
执行完毕后，唤醒用户�E�序�Q�返回结果（最后应该有R份Output�Q�每个Reduce Worker一个）�?

可见�Q�这里的分（Divide�Q�体现在两步�Q�分别是��输入分成M份，以及��Map的中间结果分成R份。将输入分开通常很简单，Map的中间结果通常�?#8221;hash(key) mod R”�q�个�l�果作�ؓ标准�Q�保证相同的Key出现在同一个Partition里面。当�Ӟ��使用者也可以指定自己的Partition Function�Q�比如，对于Url Key�Q�如果希望同一个Host的URL出现在同一个Partition�Q�可以用”hash(Hostname(urlkey)) mod R”作�ؓPartition Function�?/p>

对于上面的例子来��_��每个文档中都可能会出现成千上万的 (”the”, 1)�q�样的中间结果，琐碎的中间文件必然导致传输上的损失。因此，MapReduce�q�支持用��h��供Combiner Function。这个函数通常与Reduce Function有相同的实现�Q�不同点在于Reduce函数的输出是最�l�结果，而Combiner函数的输出是Reduce函数的某一个输入的中间文�g�?/p>

Tom White�l�出了Nutch[2]中另一个很直观的例子，分布式Grep。我一直觉得，Pipe中的很多操作�Q�比如More、Grep、Cat都类��g��一�U�Map操作�Q�而Sort、Uniq、wc�{�都相当于某�U�Reduce操作�?/p>

加上前两天Google刚刚发布�?a >BigTable论文�Q�现在Google有了自己的集��?- Googel Cluster�Q�分布式文�g�pȝ�� - GFS�Q�分布式计算环境 - MapReduce�Q�分布式�l�构化存�?- BigTable�Q�再加上Lock Service。我真的能感觉的到Google著名的免�Ҏ��之外的对于�E�序员的另一�U�免费的晚餐�Q�那个由大量的commodity PC�l�成的large clusters。我觉得�q�些才真正是Google的核心�h值所在�?/p>

呵呵�Q�就像微软老兵Joel Spolsky�Q�你应该看过他的”Joel on Software”吧？�Q�曾�l�说�q�，对于微��Y来说最可怕的是[1]�Q�微软还在苦苦追赶Google来完善Search功能的时候，Google已经在部�|�下一代的��计算��Z��?/p>

The very fact that Google invented MapReduce, and Microsoft didn’t, says something about why Microsoft is still playing catch up trying to get basic search features to work, while Google has moved on to the next problem: building Skynet^H^H^H^H^H^H the world’s largest massively parallel supercomputer. I don’t think Microsoft completely understands just how far behind they are on that wave.

�?�Q�其实，微��Y也有自己的方�?- DryAd。问题是�Q�大公司里，要想重新部��v�q�样一个底层的InfraStructure�Q�无论是技术的原因�Q�还是政�ȝ��原因�Q�将是如何的难�?/p>

�?�Q?a >Lucene之父Doug Cutting的又一力作�Q�Project Hadoop - 由Hadoop分布式文件系�l�和一个Map/Reduce的实现组成，Lucene/Nutch的成产线也够齐全的了�?/p>

pear_li 2009-09-03 10:43 发表评论

日韩十八禁一区二区久久,久久久久久夜精品精品免费啦,久久亚洲精品无码AV红樱桃

Hadoop学习�W�记一 ���要介�l?

Map Reduce - the Free Lunch is not over?

Map Reduce - the Free Lunch is not over?

Hadoop学习�W�记一 ��要介�l?