鑫龙 — Sat, 22 Jun 2013 14:19:00 GMT

摘要: 安装和配�|�详解本文介�l�的 Zookeeper 是以 3.2.2 �q�个�E�_��版本为基��Q�最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面��从单机模式和集��模式两个方面介�l?Zookeeper 的安装和配置。单机模式单机安装非常简单，只要获取�?Zookeeper 的压�~�包�q�解压到某个目录如：/hom... 阅读全文

鑫龙 2013-06-22 22:19 发表评论

Google利器之Chubby

鑫龙 — Sat, 22 Jun 2013 04:18:00 GMT

http://blog.csdn.net/historyasamirror/article/details/3870168

Google利器之Chubby

写完了Google Cluster�Q�该轮到Chubby了�?/span>

参考文献：
[1] The Chubby lock service for loosely-coupled distributed systems
[2] Paxos Made Simple

声明

文中大部分的观点来自于文献[1]中的描述�Q�但也夹杂了部分本�h自己的理解，所以不能保证本文的正确性。真��x��入了解Chubby�q�是好好��d��版论文吧�Q?

前言

MapReduce很多人已�l�知道了�Q�但关于Chubyy��g��熟悉它的��非常有限，�q�倒是不奇怪，因�ؓMapReduce是一个针对开发�h员的ProgrammingModel�Q�自然会有很多�h��d��习它�Q�而Chubby更多的是一�U��ؓ了实现MapReduce或者Bigtable而构建的内部�?nbsp;工具�Q�对于开发�h员来说基本上是透明的。文献[1]我反复读了至��有两三天，但感觉也只是一个囫囵吞枣的�l�果�Q�里面有很多工程实现上的�l�节�Q�如果不是自�?nbsp;亲自去设计或者实玎ͼ�很难体会到其中的道理和奥妙。但是，对于�q�样一个分布式service的研�IӞ��q�是让我对一个分布式�pȝ��的结构和设计思想有了更加�?nbsp;观的感觉�?/span>

从distributed consensus problem说�v

distributed consensus problem(分布的一致性问�?是分布式��法中的一个经兔R��题。它的问题描�q�大概是�q�样的：在一个分布式�pȝ��中，有一�l�的Process�Q�它们需要确定一个Value。于是每个Process都提��Z��一个Value�Q�consensus��是指只有其中的一个Value能够被选中作�ؓ最后确定的��|��q�且当这个��D��选出来以后，所有的Process都需要被通知到�?/span>
表面上看�Q�这个问题很�Ҏ��解决。比如设�|�一个server�Q�所有的process�?nbsp;向这个server提交一个Value�Q�这个server可以通过一个简单的规则来挑选出一个Value�Q�例如最先到辄��Value被选中�Q�，然后��p��个server通知所有的Process。但是在分布式系�l�中�Q�就会有各种的问题发生，例如�Q�这个server崩溃了怎么办，所以我们可能需要有几台server共同军_��。还有，Process提交Value的时间都不一��P��|�络传输�q�程中由于�g�q�这些Value到达server的顺序也都没有保证�?/span>
�?nbsp;了解册��个问题，有很多�h提出了各�U�各��L��Protocol�Q�这些Protocol可以看做是一�l�需要遵循的规则�Q�按照这些规则，�q�些Process��p�� 够选�D��Z��个唯一的Value。其中，最有名的一个Protocol��是Paxos��法。（八卦一下，Paxos的提��叫做Lamport�Q�有很多分布式的��法都是他提出的�Q�他�q�是Latex的作者，大牛�?..�Q�。想更加了解Paxos��法可以参考文献[2]�Q�很漂亮的一��文章�?/span>

那么 �q�些和Chubby有什么关�p�d��Q�其实Chubby��是��Z��q�个问题而构建出来的。只是它�q�不是一个Protocol或者是一个算法，而是google�_?nbsp;心设计的一个service。这个service不仅能够解决一致性问题，�q�有其它的一些很实用的好处，会在下文慢慢介绍�?/span>

一个实�?/span>

在Google File System(GFS)中，有很多的server�Q�这些server需要选�D其中的一��C��为master server。这其实是一个很典型的consensus问题�Q�Value��是master server的地址。GFS��是用Chubby来解决的�q�个问题�Q�所有的server通过Chubby提供的通信协议到Chubby server上创建同一个文�Ӟ��当然�Q�最�l�只有一个server能够获准创徏�q�个文�g�Q�这个server��成��Z��master�Q�它会在�q�个文�g中写入自�?nbsp;的地址�Q�这样其它的server通过��d��q�个文�g��p��知道被选出的master的地址�?/span>

Chubby是什�?/span>

�?nbsp;上面的这个实例可以看出，Chubby首先是一个分布式的文件系�l�。Chubby能够提供机制使得client可以在Chubby service上创建文件和执行一些文件的基本操作。说它是分布式的文�g�pȝ��Q�是因�ؓ一个Chubby cell是一个分布式的系�l�，一般包含了5台机器，整个文�g�pȝ��是部�|�在�q?台机器上的�?/span>
但是�Q�从更高一点的语义层面上，Chubby是一个lock service�Q�一个针�Ҏ��耦合的分布式�pȝ��的lock service。所谓lock service�Q�就是这个service能够提供开发�h员经常用�?#8220;�?#8221;�Q?#8220;解锁”功能。通过Chubby�Q�一个分布式�pȝ��中的上千个client都能�?nbsp;对于某项资源�q�行“加锁”�Q?#8220;解锁”�?/span>
那么�Q�Chubby是怎样实现�q�样�?#8220;�?#8221;功能的？��是通过文�g。Chubby中的“�?#8221;��是文�g�Q�在上例中，创徏文�g其实��是�q�行“加锁”操作�Q�创建文件成功的那个server其实��是抢占��C��“�?#8221;。用户通过打开、关闭和��d��文�g�Q�获取共享锁或者独占锁�Q?nbsp;�q�且通过通信机制�Q�向用户发送更��C��息�?/span>

�l�g��所�q�ͼ�Chubby是一个lock service�Q�通过�q�个lock service可以解决分布式中的一致性问题，而这个lock service的实现是一个分布式的文件系�l��?/span>

可能会有人问�Q��ؓ什么不是直接实��C��个类��g��Paxos��法�q�样的Protocol来解决一致性问题，而是要通过一个lock service来解冻I��文献[1]中提刎ͼ�用lock service�q�种方式有几个好处：
1.大部分开发�h员在开始开发service的时候都不会考虑到这�U�一致性的问题�Q�所以一开始都不会使用consensus protocol。只有当service慢慢成熟以后�Q�才开始认真对待这个问题。采用lock service可以使得在保持原有的�E�序架构和通信机制的情况下�Q�通过��d��单的语句��可以解决一致性问题；
2.正如上文实例中所展现�Q�很多时候�ƈ不仅仅是选�D��Z��个master�Q�还需要将�q�个master的地址告诉其它人或者保存某个信息，�q�种时候，使用Chubby中的文�g�Q�不仅仅是提供锁功能�Q�还能在文�g中记录下有用的信息（比如master的地址�Q�。所以，很多的开发�h员通过使用Chubby来保存metadata和configuration�?/span>
3. 一个基于锁的开发接口更�Ҏ��被开发�h员所熟悉。�ƈ不是所有的开发�h员都了解consensus protocol的，但大部分人应该都用过锁�?/span>
4. 一个consensus protocol一般来说需要��用到好几台副本来保证HA�Q�详见Paxos��法�Q�，而��用Chubby�Q�就��只有一个client也能用�?/span>
可以看出�Q�之所以用lock service�q�样的�Ş式，是因为Chubby不仅仅想解决一致性问题，�q�可以提供更多更有用的功能。事实上�Q�Google有很多开发�h员将Chubby当做name service使用�Q�效果非常好�?/span>

关于lock service�Q�还有两个名词需要提及�?/span>
一个是advisory lock。Chubby中的lock都是advisory lock。所谓的advisory lock�Q��D个例子，��是说当有�h��某个文仉��住以后，如果有其他的人想不解锁而直接访问这个文�Ӟ��q�种行�ؓ是不会被��L��的。和advisory lock对应的是mandatory lock�Q�即如果某个文�g被锁住以后，如果有其他的人直接访问它�Q�那么这�U�行为是会��生exception的�?/span>
�?nbsp;一个是coarse-grained�Q�粗颗粒度的�Q�。Chubby的lock service是coarse-grained�Q�就是说Chubby中的lock一般锁住的旉��都比较长�Q�可能是几小时或者几天。与之对应的是fined-grained�Q�这�U�lock一般只�l�持几秒或者更��。这两种锁在实现的时候是会有很多不同的考虑的，比如coarse-grained的lock service的负载要��很多，因�ؓ加锁解锁�q�不会太频繁。其它的差别详见文献[1]�?/span>

Chubby的架�?/span>

上图��是Chubby的系�l�架构�?nbsp;

基本上分��Z��两部分：服务器一端，�U�CؓChubby cell�Q�client一端，每个Chubby的client都有一个Chubby library。这两部分通过RPC�q�行通信�?/span>
client端通过Chubby library的接口调用，在Chubby cell上创建文件来获得相应的锁的功能�?/span>
�׃��整个Chubby�pȝ��比较复杂�Q�且�l�节很多�Q�我个�h又将整个�pȝ��分�ؓ了三个部分：
Chubby cell的一致性部�?/span>
分布式文件系�l�部�?/span>
client与Chubby cell的通信和连接部�?/span>

先从Chubby cell的一致性部分说赗��?/span>
一般来��_��一个Chubby cell�׃��台server�l�成�Q�可以支持一整个数据中心的上万台机器的lock service�?/span>
cell中的每台server我们�U�C��为replicas�Q�副本）�?/span>
当Chubby工作的时候，首先它需要从�q�些replicas中选�D��Z��个master。注意，�q�其实也是一个distributed consensus problem�Q�也��是说Chubby也存在着分布式的一致性问题。Chubby是通过采用consensus protocol�Q�很可能��是Paxos��法�Q�来解决�q�个问题的。所以，Chubby的client用Chubby提供的lock service来解决一致性问题，而Chubby�pȝ��内部的一致性问题则是用consensus protocol解决的�?/span>
每个master都具有一定的期限�Q�成为master lease。在�q�个期限中，副本们不会再选�D一个其它的master�?/span>
�?nbsp;了安全性和定w��的考虑�Q�所有的replicas�Q�包括master�Q�都�l�护的同一个DB的拷贝。但是，只有master能够接受client提交的操作对DB�q�行��d��写，而其它的replicas只是和master�q�行通信来update它们各自的DB。所以，一旦一个master被选�D出来后，所有的client端都之和master�q�行通信�Q�如图所�C�）�Q�如果是��L��作，那么master一台机器就搞定了，如果是写操作�Q�master会通知其它的replicas�q�行update。这��L��话，一旦master意外停机�Q�那么其它的replicas也能够很快的选�D出另外一个master�?/span>

再说说Chubby的文件系�l?/span>
�?nbsp;文说�q�，Chubby的底层实现其实就是一个分布式的文件系�l�。这个文件系�l�的接口是类��g��Unix�pȝ��的。例如，对于文�g�?#8220;/ls/foo /wombat/pouch”�Q�ls表示的是“lock service”�Q�foo表示的是某个Chubby cell的名字，wombat/pouch则是�q�个cell上的某个文�g目录或者文件名。如果一个client端��用Chubby library来创��样一个文件名�Q�那么这样一个文件就会在Chubby cell上被创徏�?/span>
Chubby的文件系�l�由于它的特�D�用途做了很�?nbsp;的简化。例如它不支持文件的转移�Q�不记录文�g最后访问时间等�{�。整个文件系�l�只包含有文件和目录�Q�统一�U�Cؓ“Node”。文件系�l�采用Berkeley DB来保存Node的信息，主要是一�U�map的关�p�R��Key��是Node的名字，Value��是Node的内宏V�?/span>
�q�有一炚w��要提及的是，Chubby cell和client之间用了event形式的通知机制。client在创��Z��文�g之后会得��C��个handle�Q��ƈ且还可以订阅一�p�d��的event�Q�例如文件内容修改的event。这��L��话，一旦client相关的文件内容被修改了，那么cell会通过机制发送一个event来告诉client该文件被修改了�?/span>

最后谈谈client与cell的交互部�?/span>
�q�里大致包含两部分的内容�Q�cache的同步机制和KeepAlive握手协议�?/span>
�?nbsp;了降低client和cell之间通信的压力和频率�Q�client在本��C��保存一个和自己相关的Chubby文�g的cache。例如如果client通过Chubby library在cell上创��Z��一个文�Ӟ��那么在client本地�Q�也会有一个相同的文�g在cache中创建，�q�个cache中的文�g的内容和cell上文件的内容是一��L��。这��L��话，client如果惌��问这个文�Ӟ��可以直接访问本地的cache而不通过�|�络去访问cell�?/span>
cache有两个状态，有效和无效。当有一个client要改变某个File的时候，整个修改会被master block�Q�然后master会发送无效标志给所有cache了这个数据的client�Q�它�l�护了这么一个表�Q�，当其它client端收到这个无效标�?nbsp;后，��׃��cache中的状态置为无效，然后�q�回一个acknowledge�Q�当master��定收到了所有的acknowledge之后�Q�才完成整个modification�?/span>
需要注意的是，master�q�不是发送update�l�client而是发送无效标志给client。这是因为如果发送update�l�client�Q�那么每一�ơ数据的修改都需要发送一大堆的update�Q�而发送无效标�C�的话，对一个数据的很多�ơ修改只需要发送一个无效标�C�，�q�样大大降低了通信量�?/span>

至于KeepAlive协议�Q�则是�ؓ了保证client和master随时都保持着联系。client和master每隔一�D�|��间就会KeepAlive一�ơ，�q�样的话�Q�如果master意外停机�Q�client可以很快的知道这个消息，然后�q�速的转移到新的master上。�ƈ且，�q�种转移对于client端的application是透明的，也就是说application�q�不会知道master发生了错误。关于cache和KeepAlive�q�有很多�?nbsp;�l�节�Q�想了解的读文献[1]吧�?/span>

�ȝ��

其实在我的这��文章中�Q�还有一个很大的主题没有提及�Q�那��是Chubby的容错机制。基本上�Q�容错这个思想贯穿了文献[1]的始�l�，也正是因此，我很隑ְ� 它单独提取出来解释，因�ؓ它散落在了Chubby�pȝ��设计的所有角落。我个�h感觉�Q�容错是一个分布式�pȝ��设计的核心思想�Q�在设计的时候要求考虑到所有可�?nbsp;会发生的错误�Q�不仅仅包括了硬件的错误�Q�网�l�的故障�Q�还包括了开发�h员可能出现的错误。我惻I��q�是我读�q�篇文章[1]最大的收获�?br />

/Files/mysileng/Paxos��法深入分析.doc

鑫龙 2013-06-22 12:18 发表评论

鑫龙 — Wed, 19 Jun 2013 08:33:00 GMT

时常看到高�ƈ发的问题�Q�但高�ƈ发其实是最不需要考虑的东�ѝ��ؓ何，他虚无��I�~�，很少有网站真的需要这些东西，而且其中很多技术，其实你已�l�在用了。有�q�个意识��够了，不需要时�ȝ��着�q�个问题。只有很��的�|�站真的能达到高�q�发�?nbsp;

��单做一个归�U�I��从低成本、高性能和高扩张性的角度来说有如下处理方案：
1、HTML静态化
2、图片服务器分离
3、数据库集群和库表散�?nbsp;
4、缓�?nbsp;
5、镜�?nbsp;
6、负载均�?一个典型的使用负蝲均衡的策略就是，在��Y件或者硬件四层交换的基础上搭建squid集群�Q�这�U�思�\在很多大型网站包括搜索引擎上被采用，�q�样的架构低成本、高性能�q�有很强的扩张性，随时往架构里面增减节点都非常容易�?nbsp;

下面也是一个牛人所做的�ȝ��Q�跟上面部分相同�?nbsp;
高�ƈ发时�Q�性能瓉��及当前常用的应对措施

1.数据库瓶颈。Mysql�q�发链接100
2.apache �q�发链接1500
3.�E�序执行效率

1.有数据库瓉��Ӟ��当前处理�Ҏ��无外�?��M��Q�集��。增加cache(memcached).
如：手机之家新系�l�介�l�及架构分��n�Q�http://www.slideshare.net/Fenng/ss-1218991?from=ss_embed�Q?nbsp;
��是在cache层做优化

又拍�|�架构（http://www.bopor.com/?p=652�Q?nbsp;
是以增加数据库，分表分库的方法解冟�?nbsp;

Sina增加了mq(消息队列)来分发数据�?nbsp;

�q�有风站用了key-value的数据库。其实这可以理解成一个持久化的缓存�?nbsp;

2.apache瓉��?nbsp;

增加服务器。负载均衡。如sina的F5
�׃��q�程数的限制。会把一些基本不变的代码挪出来放到单独的服务器。如css/js/囄��?nbsp;
国内成功的案例是tom的cdn

又如nginx的横�I�出世和squid的反向代理都是基于这个原因出来的�?nbsp;

3.php的执行效率。原因有多个�?nbsp;

1�Q?本��n的效率低�?nbsp;
解决的成功案例是Zend Optimizer �?facebooke的hiphop
Taobao是把php代码�~�译成模块解��x��率问题�?nbsp;

2). 数据库查询效率问题。如可能有order by ,group by �{�Sql数据问题�?nbsp;
�q�个其实应该归结到数据库设计问题�?nbsp;
解决的办法是建立正确的烦引。增加memcache.�?nbsp;
对like�?用专用的sphinx.和lucence �{�搜索服务�?nbsp;
�E�序员都应该会用explain对sql语句作分析�?nbsp;

说到底。解决高�q�发��是上面所列技术，�E�序员要做的��是把每个技术具体实现�?nbsp;

鑫龙 2013-06-19 16:33 发表评论

亚洲黄色尤物视频,玖玖玖国产精品,久久综合九色综合欧美就去吻

Google利器之Chubby