久久九九兔免费精品6,色综合久久中文字幕无码,国内精品伊人久久久影院

��量数据处理专题�Q�九�Q�——外排序(�?

鑫龙 — Mon, 05 Nov 2012 12:30:00 GMT

【引�a��?/h1>
在数据结构的评��上，我们学习了不��的排序��法�Q�冒泡，堆，快排�Q�归�q�等。但是这些排序方法有着共同的特点，那就是所有的操作都是在内存中完成的，��法�q�程中不需要IO�Q�这��׃��得这��L��法��M��上速度比较快，但是也随之出��C��一个问题：当需要排序的数据量异常的大的时候，以上的算法就昑־�力不从心了。这时候，你需要一�U�另外的排序��法�Q�它的名字叫“外排�?#8221;�?/p>
通常的，讑֤�的内存读取速度要比外存��d��速度快得多（RAM的访问速度大约是磁盘的25万倍）�Q�但是内存的定w��却要比外存小很多�Q�当所有的数据不能在内存中完全放下的时候，��需要��用到外排序。这是外排序的一个显著特征�?/p>

【什么是外排序�?/h1>
外排序其实是采用一�U�分治（Divide and conquer algorithm�Q�的��法设计思想�Q�将一个大问题划分成相对独立的若干个小问题�Q�解军_��问题�Q�得到小问题的答案，然后合�ƈ��问题的�{�案�Q�最�l�得到原始大问题的答案�?/p>
在这里，我们举一个外排的典型例子�Q�二路外部归�q�排序，假设我们有一个大文�g�Q�里面是待排序的数据�Q�一共N个，�q�些数据在内存中放不下。排序过�E�如下：
��该大文件分割成大小为m的文�Ӟ��m��于可用内存大小�Q?/li>
��这些小文�g依次��d��内存�Q�在内存中采用�Q一�U�排序算法排序�ƈ输出文�gF1�Q�F2….Fn。（其实可以和第一步合�qӞ��可以省一�ơIO�Q?/li>
分块快读取两个已�l�排完序的文件Fi和Fi+1�Q�由于两个文件已�l�排完序�Q�这里可以用归�ƈ排序�Q�将两个文�g排序完毕�Q��ƈ写入文�g。（�q�个�q�程��好比有两队人马��其合�ƈ��Z��对一��P��
重复�q�程3�Q�直到剩余文件数�?�?/li>
以上��是二�\外部归�ƈ排序的基本思�\�Q�毫无疑问，�q�种排序��法需要读取外存（IO�Q�次��Cؓlog(2,N/m)�Q�这时候算法的性能瓉��已经不在内存中排序的旉��复杂度上�Q�而是内外村交换数据IO的次��C��。这里我补充一句，各种操作的性能差别�Q?/p>
��d��|�络 > ��盘文�gIO > ��d��数据�?> 内存��d��
�q�个可谓是程序性能的黄金法则，各位在写�Ҏ��能要求比较高的�E�序时一定要考虑�?/p>
好，�a�归正传，二�\归�ƈ排序�q�个��法的性能时比较低的。因此就有了多�\归�ƈ排序��法�Q�其IO的次��Cؓlog(b, N/m)�Q�其中b为几路归�q�。这个可以参考以下地址�Q?/p>
http://zh.wikipedia.org/wiki/%E5%A4%96%E6%8E%92%E5%BA%8F

【实战训�l��?/h1>
淘宝不同用户的浏览log有上千万or亿数据（有重复）�Q�统计其中有相同��览爱好的用戗��?/p>
转蝲��h��明出处：http://diducoder.com/mass-data-topic-9-external-sort.html

鑫龙 2012-11-05 20:30 发表评论

��量数据处理专题�Q�八�Q�——倒排索引(搜烦引擎之基�?(�?

鑫龙 — Mon, 05 Nov 2012 12:29:00 GMT

引言�Q?/h1>
在信息大爆炸的今天，有了搜烦引擎的帮助，使得我们能够快速，便捷的找到所求。提到搜索引擎，��׃��得不说VSM模型�Q�说到VSM�Q�就不得不聊倒排索引。可以毫不夸张的�Ԍ��倒排索引是搜索引擎的基石�?/p>

VSM��索模�?/h1>
VSM全称是Vector Space Model(向量�I�间模型)�Q�是IR(Information Retrieval信息��?模型中的一�U�，�׃��其简单，直观�Q�高效，所以被�q�泛的应用到搜烦引擎的架构中�?8�q�的Google��是凭借这��L��一个模型，开始了它的疯狂扩张之�\。废话不多说�Q�让我们来看看到底VSM是一个什么东东�?/p>
在开始之前，我默认大家对�U�性代数里面的向量(Vector)有一定了解的。向量是既有大小又有方向的量�Q�通常用有向线�D�表�C�，向量有：加、减、倍数、内�U�、距��R��模、夹角的�q�算�?/p>
文档(Document)�Q�一个完整的信息单元�Q�对应的搜烦引擎�pȝ��里，��是指一个个的网��c�?/p>
标引��?Term)�Q�文档的基本构成单位�Q�例如在英文中可以看做是一个单词，在中文中可以看作一个词语�?/p>
查询(Query)�Q�一个用��L��输入�Q�一般由多个Term构成�?/p>
那么用一句话概况搜烦引擎所做的事情��是�Q�对于用戯��入的Query�Q�找到最�怼�的Document�q�回�l�用戗��而这正是IR模型所解决的问题：
信息��索模型是指如何对查询和文档进行表�C�，然后对它们进行相似度计算的框架和�Ҏ��?/p>
举个��单的例子�Q?/p>
现在有两��文�?Document)分别�?“春风来了�Q�春天的脚步�q�了” �?“春风不度玉门�?#8221;。然后输入的Query�?#8220;春风”�Q�从直观上感觉，前者和输入的查询更相关一些，因�ؓ它包含有2个春�Q�但�q�只是我们的直观感觉�Q�如何量化呢�Q�要知道计算机是门严谨的学科^_^。这个时候，我们前面讲的Term和VSM模型��派上用��Z��?/p>
首先我们要确定向量的�l�数�Q�这时候就需要一个字典库�Q�字典库的大��，��x��向量的维数。在该例中，字典�?span style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-size: 12px; font-style: inherit; font-family: Consolas, Monaco, 'Courier New', Courier, monospace; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; line-height: 18px; white-space: pre; ">{春风,来了,春天, �?脚步,�q�了,不度,玉门关} �Q�文档向量，查询向量如下图：
VSM模型�C�Z��
PS:��Z��单�v见，�q�里分词的粒度很大�?/p>
��Query和Document都量化�ؓ向量以后�Q�那么就可以计算用户的查询和哪个文档�怼�性更大了。简单的计算�l�果是D1和D2同Query的内�U�都�?�Q�囧。当然了�Q�如果分词粒度再�l�一些，查询的结果就是另外一个样子了�Q�因此分词的�_�度也是会对查询�l�果�Q�主要是召回率和准确率）造成影响的�?/p>
上述的例子是用一个很��单的例子来说明VSM模型的，计算文档�怼�度的时候也是采用最原始的内�U�的�Ҏ��Q��ƈ且只考虑了词�?TF)影响因子�Q�而没有考虑反词�?IDF)�Q�而现在比较常用的是cos夹角法，影响因子也非常多�Q�据传Google的媄响因子有100+之多�?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />大名鼎鼎的Lucene��目��是采用VSM模型构徏的，VSM的核心公式如下（由cos夹角法演变，此处省去推导�q�程�Q?/p>
VSM模型公式
从上面的例子不难看出�Q�如果向量的�l�度(�Ҏ��语来��，�q�个��g��般在30w-45w)变大�Q�而且文档数量(通常都是��量�?变多�Q�那么计��一�ơ相��x��，开销是非常大的，如何解决�q�个问题呢？不要忘记了，我们�q�节的主题就�?倒排索引�Q�主角终于粉墨登��Z��Q�！�Q?/p>

倒排索引

倒排索引非常�c�M��我们前面提到的Hash�l�构。以下内�Ҏ��自维基百�U�：

倒排索引�Q�英语：Inverted index�Q�，也常被称�?strong style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-style: inherit; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; ">反向索引�?strong style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-style: inherit; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; ">�|�入档案�?strong style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-style: inherit; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; ">反向档案�Q�是一�U?a title="索引" style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; color: #1982d1; text-decoration: none; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-style: inherit; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; ">索引�Ҏ��Q�被用来存储�?a title="全文搜烦" style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; color: #1982d1; text-decoration: none; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-style: inherit; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; ">全文搜烦下某个单词在一个文档或者一�l�文档中�?a title="存储位置" style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; color: #1982d1; text-decoration: none; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-style: inherit; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; ">存储位置�?a title="映射" style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; color: #1982d1; text-decoration: none; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-style: inherit; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; ">映射。它�?a title="文档��索系�l? style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; color: #1982d1; text-decoration: none; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-style: inherit; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; ">文档��索系�l?/a>中最常用�?a title="数据�l�构" style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; color: #1982d1; text-decoration: none; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-style: inherit; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; ">数据�l�构�?/p>
有两�U�不同的反向索引形式�Q?/p>
一条记录的水��^反向索引�Q�或者反向档案烦引）包含每个引用单词的文档的列表�?/li>
一个单词的水��^反向索引�Q�或者完全反向烦引）又包含每个单词在一个文档中的位�|��?/li>
后者的形式提供了更多的兼容�?/a>�Q�比�?a title="短语搜烦" style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; color: #1982d1; text-decoration: none; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-style: inherit; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; ">短语搜烦�Q�，但是需要更多的旉��和空间来创徏�?/p>

�׃��面的定义可以知道�Q�一个倒排索引包含一个字典的索引和所有词的列表。其中字典烦引中包含了所有的Term(通俗理解为文档中的词)�Q�烦引后面跟的列表则保存该词的信�?出现的文档号�Q�甚臛_��含在每个文档中的位置信息)。下面我们还采用上面的方法�D一个简单的例子来说明倒排索引�?/p>

例如现在我们要对三篇文档建立索引(实际应用中，文档的数量是��量�?�Q?/p>

文档1(D1)�Q�中国移动互联网发展�q��?/p>

文档2(D2)�Q�移动互联网未来的潜力巨�?/p>

文档3(D3)�Q�中华民族是个勤劳的民族

那么文档中的词典集合为：{中国�Q�移动，互联�|�，发展�Q�迅速，未来�Q�的�Q�潜力，巨大�Q�中华，民族�Q�是�Q�个�Q�勤劳}

建好的烦引如下图�Q?/p>

倒排索引

在上面的索引中，存储了两个信息，文档号和出现的次数。徏立好索引以后�Q�我们就可以开始查询了。例如现在有一个Query�?#8221;中国�U�d��”。首先分词得到Term集合{中国�Q�移动}�Q�查倒排索引�Q�分别计��query和d1,d2,d3的距��R��有没有发现�Q�倒排表徏立好以后�Q�就不需要在��索整个文档库�Q�而是直接从字兔R��合中扑ֈ�“中国”�?#8220;�U�d��”�Q�然后遍历后面的列表直接计算�?/p>

对倒排索引�l�构我们已经有了初步的了解，但在实际应用中还有些需要解决的问题(主要是由��量数据引�v�?。笔者列举一些问题，�q�给出相应的解决�Ҏ��Q�抛砖以引玉�Q�希望大家可以展开讨论�Q?/p>

1.左侧的烦引表如何建立?怎么做才能最高效�Q?/p>

可能有�h不假思烦回答�Q�左侧的索引当然要采取hash�l�构啊，�q�样可以快速的定位到字兔R��。但是这样问题又来了�Q�hash函数如何选取呢？而且hash是有��撞的，但是倒排表似乎又是不允许��撞的存在的。事实上�Q�虽然倒排表和hash异常的相思，但是两者还是有很大区别的，其实在这里我们可以采用前面提到的Bitmap的思想�Q�每个Term(单词)对应一个位�|?当然了，�q�里不是一个比特位)�Q�而且是一一对应的。如何能够做到呢�Q�一般在文字处理中，有很多的�~�码�Q�汉字中的GBK�~�码基本上就可以包含所有用到的汉字�Q�每个汉字的GBK�~�码是确定的�Q�因此一个Term�?#8221;ID”也就��定了，从而可以做到快速定位。注�Q�得��C��个汉字的GBK��h��非常快的�q�程�Q�可以理解�ؓO(1)的时间复杂度�?/p>

2.如何快速的��d��删除更新索引�Q?/p>

有经验的码农都知道，一般在�pȝ��?#8220;做加�?#8221;的代��h��“做减�?#8221;的代仯��低很多，在搜索引擎中中也不例外。因此，在倒排表中�Q�遇到要删除一个文档，其实不是真正的删除，而是��其标记删除。这样一个减法操作的代�h��比较小了�?/p>

3.那么多的��量文档�Q�如果存储呢�Q�有么有什么备份策略呢�Q?/p>

当然了，一台机器是存储不下的，分布式存储是采取的。一般的备䆾保存3份就��_��了�?/p>

好了�Q�倒排索引�l�于完工了，不��的地方请指正。谢�?/p>

做�h要厚道，转蝲��h��明出处：http://diducoder.com/mass-data-topic-8-inverted-index.html

鑫龙 2012-11-05 20:29 发表评论

��量数据处理专题�Q�七�Q�——数据库索引及优�?�?

鑫龙 — Mon, 05 Nov 2012 12:28:00 GMT

索引是对数据库表中一列或多列的��D��行排序的一�U�结构，使用索引可快速访问数据库表中的特定信息�?/p>

数据库烦�?/h1>

什么是索引

数据库烦引好比是一本书前面的目录，能加快数据库的查询速度�?/p>

例如�q�样一个查询：select * from table1 where id=44。如果没有烦引，必须遍历整个表，直到ID�{�于44的这一行被扑ֈ�为止�Q�有了烦引之�?必须是在ID�q�一列上建立的烦�?�Q�直接在索引里面�?4�Q�也��是在ID�q�一列找�Q�，��可以得知这一行的位置�Q�也��是扑ֈ�了这一行。可见，索引是用来定位的�?/p>

索引分�ؓ聚簇索引和非聚簇索引两种�Q�聚��烦�?是按照数据存攄��物理位置为顺序的�Q�而非聚簇索引��׃��一样了�Q�聚��烦引能提高多行��索的速度�Q�而非聚簇索引对于单行的检索很快�?/p>

概述

建立索引的目的是加快对表中记录的查找或排序�?/p>

��讄��索引要付��Z��L��Q�一是增加了数据库的存储�I�间�Q�二是在插入和修�Ҏ��据时要花费较多的旉��(因�ؓ索引也要随之变动)�?/p>

B树烦�?Sql Server索引方式

��Z��么要创徏索引

创徏索引可以大大提高�pȝ��的性能�?/p>

�W�一�Q�通过创徏唯一性烦引，可以保证数据库表中每一行数据的唯一性�?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />�W�二�Q�可以大大加快数据的��索速度�Q�这也是创徏索引的最主要的原因�?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />�W�三�Q�可以加速表和表之间的连接，特别是在实现数据的参考完整性方面特别有意义�?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />�W�四�Q�在使用分组和排序子句进行数据检索时�Q�同样可以显著减��查询中分组和排序的旉��?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />�W�五�Q�通过使用索引�Q�可以在查询的过�E�中�Q��用优化隐藏器�Q�提高系�l�的性能�?/p>

也许会有��问：增加索引有如此多的优点，��Z��么不对表中的每一个列创徏一个烦引呢�Q�因为，增加索引也有许多不利的方面�?/p>

�W�一�Q�创建烦引和�l�护索引要耗费旉��Q�这�U�时间随着数据量的增加而增加�?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />�W�二�Q�烦引需要占物理�I�间�Q�除了数据表占数据空间之外，每一个烦引还要占一定的物理�I�间�Q�如果要建立聚簇索引�Q�那么需要的�I�间��׃��更大�?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />�W�三�Q�当对表中的数据�q�行增加、删除和修改的时候，索引也要动态的�l�护�Q�这样就降低了数据的�l�护速度�?/p>

在哪建烦�?/h2>
索引是徏立在数据库表中的某些列的上面。在创徏索引的时候，应该考虑在哪些列上可以创建烦引，在哪些列上不能创建烦引。一般来��_��应该在这些列上创建烦引：
在经帔R��要搜索的列上�Q�可以加快搜索的速度�Q?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />在作��Z��键的列上�Q�强制该列的唯一性和�l�织表中数据的排列结构；
在经常用在连接的列上�Q�这些列主要是一些外键，可以加快�q�接的速度�Q�在�l�常需要根据范围进行搜索的列上创徏索引�Q�因为烦引已�l�排序，其指定的范围是连�l�的�Q?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />在经帔R��要排序的列上创徏索引�Q�因为烦引已�l�排序，�q�样查询可以利用索引的排序，加快排序查询旉��Q?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />在经�怋�用在WHERE子句中的列上面创建烦引，加快条�g的判断速度�?/p>
同样�Q�对于有些列不应该创建烦引。一般来��_��不应该创建烦引的的这些列��h��下列特点�Q?/p>
�W�一�Q�对于那些在查询中很��用或者参考的列不应该创徏索引。这是因为，既然�q�些列很��用到�Q�因此有索引或者无索引�Q��ƈ不能提高查询速度。相反，�׃��增加了烦引，反而降低了�pȝ��的维护速度和增大了�I�间需求�?/p>
�W�二�Q�对于那些只有很��数据值的列也不应该增加烦引。这是因为，�׃��q�些列的取值很��，例如��Z��表的性别列，在查询的�l�果中，�l�果集的数据行占了表中数据行的很大比例，即需要在表中搜烦的数据行的比例很大。增加烦引，�q�不能明昑֊�快检索速度�?/p>
�W�三�Q�对于那些定义�ؓtext, image和bit数据�c�d��的列不应该增加烦引。这是因为，�q�些列的数据量要么相当大�Q�要么取值很��?不利于��用烦引�?/p>
�W�四�Q�当修改性能�q�远大于��索性能�Ӟ��不应该创建烦引。这是因为，修改性能和检索性能是互相矛盄��。当增加索引�Ӟ��会提高检索性能�Q�但是会降低修改性能。当减少索引�Ӟ��会提高修�Ҏ��能�Q�降低检索性能。因此，当修�Ҏ��作远�q�多于检索操作时�Q�不应该创徏索引�?/p>

数据库优�?/h1>
此外�Q�除了数据库索引之外�Q�在LAMP�l�果如此��行的今天，数据库（��其是MySQL�Q�性能优化也是��量数据处理的一个热炏V��下面就�l�合自己的经验，聊一聊MySQL数据库优化的几个斚w��?/p>
首先�Q�在数据库设计的时候，要能够充分的利用索引带来的性能提升�Q�至于如何徏立烦引，建立什么样的烦引，在哪些字�D�上建立索引�Q�上面已�l�讲的很清楚了，�q�里不在赘述。另外就是设计数据库的原则就是尽可能��的�q�行数据库写操作�Q�插入，更新�Q�删除等�Q�，查询��简单越好。如下：
数据库设�?/p>
其次�Q�配�|�缓存是必不可少的，配置�~�存可以有效的降低数据库查询��d��ơ数�Q�从而缓解数据库服务器压力，辑ֈ�优化的目的，一定程度上来讲�Q�这��是一�?#8220;围魏救�n”的办法。可配置的缓存包括烦引缓�?key_buffer)�Q�排序缓�?sort_buffer)�Q�查询缓�?query_buffer)�Q�表描述�W�缓�?table_cache)�Q�如下图�Q?/p>
配置�~�存
�W�三�Q�切表，切表也是一�U�比较流行的数据库优化方法。分表包括两�U�方式：横向分表和纵向分表，其中�Q�横向分表比较有使用意义�Q�故名思议�Q�横向切表就是指把记录分��C��同的表中�Q�而每条记录仍旧是完整的（�U�向切表后每条记录是不完整的�Q�，例如原始表中�?00条记录，我要切成2个表�Q�那么最��单也是最常用的方法就是ID取摸切表法，本例中，��把ID�?,3,5,7。。。的记录存在一个表中，ID�?,4,6,8,。。。的记录存在另一张表中。虽然横向切表可以减��查询强度，但是它也破坏了原始表的完整性，如果该表的统计操作比较多�Q�那么就不适合横向切表。横向切表有个非常典型的用法�Q�就是用��h��据：每个用户的用��h��据一般都比较庞大�Q�但是每个用��h��据之间的关系不大�Q�因此这里很适合横向切表。最后，要记住一句话��是�Q�分表会造成查询的负担，因此在数据库设计之初�Q�要惛_��是否真的适合切表的优化：
分表
�W�四�Q�日志分析，在数据库�q�行了较长一�D�|��间以后，会积累大量的LOG日志�Q�其实这里面的蕴�늚�有用的信息量�q�是很大的。通过分析日志�Q�可以找到系�l�性能的瓶颈，从而进一步寻找优化方案�?/p>
性能分析
以上讲的都是单机MySQL的性能优化的一些经验，但是随着信息大爆炸，单机的数据库服务器已�l�不能满��x��们的需求，于是�Q�多多节点，分布式数据库�|�络出现了，其一般的�l�构如下�Q?/p>
分布式数据库�l�构
�q�种分布式集��的技术关键就�?#8220;同步复制”。。。《未完待�l�。。。�?/p>
做�h要厚道，转蝲��h��明出处：http://diducoder.com/mass-data-topic-7-index-and-

鑫龙 2012-11-05 20:28 发表评论

��量数据处理专题�Q�六�Q�——双层桶划分(�?

鑫龙 — Mon, 05 Nov 2012 12:26:00 GMT

【什么是双层桶�?br />事实上，与其说双层桶划分是一�U�数据结构，不如说它是一�U�算法设计思想。面对一堆大量的数据我们无法处理的时候，我们可以��其分成一个个��的单元�Q�然后根据一定的�{�略来处理这些小单元�Q�从而达到目的�?/p>

【适用范围�?br />�W�k大，中位敎ͼ�不重复或重复的数�?/p>

【基本原理及要点�?br />因�ؓ元素范围很大�Q�不能利用直接寻址表，所以通过多次划分�Q�逐步��定范围�Q�然后最后在一个可以接受的范围内进行。可以通过多次�~�小�Q�双层只是一个例子，分治才是其根本（只是“只分不治”�Q��?/p>

【扩展�?br />当有时候需要用一个小范围的数据来构造一个大数据�Q�也是可以利用这�U�思想�Q�相比之下不同的�Q�只是其中的逆过�E��?/p>

【问题实例�?br />1).2.5亿个整数中找��Z��重复的整数的个数�Q�内存空间不��以容纳�q?.5亿个整数�?/span>

有点像鸽巢原理，整数个数�?^32,也就是，我们可以��这2^32个数�Q�划分�ؓ2^8个区�?比如用单个文件代表一个区�?�Q�然后将数据分离��C��同的区域�Q�然后不同的区域在利用bitmap��可以直接解决了。也��是说只要有��_��的磁盘空��_��可以很方便的解冟�?当然�q�个题也可以用我们前面讲�q�的BitMap�Ҏ��解决�Q�正所谓条条大道通罗马~~~

2).5亿个int扑֮�们的中位数�?/strong>

�q�个例子比上面那个更明显。首先我们将int划分�?^16个区域，然后��d��数据�l�计落到各个区域里的数的个数�Q�之后我们根据统计结果就可以判断中位数落到那个区域，同时知道�q�个区域中的�W�几大数刚好是中位数。然后第二次扫描我们只统计落在这个区域中的那些数��可以了�?/p>

实际上，如果不是int是int64�Q�我们可以经�q?�ơ这��L��划分卛_��降低到可以接受的�E�度。即可以先将int64分成2^24个区域，然后��定区域的第�?大数�Q�在��该区域分成2^20个子区域�Q�然后确定是子区域的�W�几大数�Q�然后子区域里的数的个数只有2^20�Q�就可以直接利用direct addr table�q�行�l�计了�?/p>

3).现在有一�?-30000的随机数生成器。请�Ҏ��q�个随机数生成器�Q�设计一个抽奖范围是0-350000彩票中奖��L��列表�Q�其中要包含20000个中奖号码�?/span>

�q�个题刚好和上面两个思想相反�Q�一�?�?万的随机数生成器要生成一�?�?5万的随机数。那么我们完全可以将0-35万的区间分成35/3=12个区��_��然后每个区间的长度都��于�{�于3万，�q�样我们��可以用题目�l�的随机数生成器来生成了�Q�然后再加上该区间的基数。那么要每个区间生成多少个随机数呢？计算公式��是�Q�区间长�?随机数密度，在本题目中就�?0000*�Q?0000/350000�Q�。最后要注意一点，该题目是有隐含条件的�Q�彩��，�q�意味着你生成的随机数里面不能有重复�Q�这也是我�ؓ什么用双层桶划分思想的另外一个原因�?/p>

做�h好厚道，转蝲��h��明出处：http://diducoder.com/mass-data-topic-6-multi-dividing.html

鑫龙 2012-11-05 20:26 发表评论

��量数据处理专题�Q�五�Q�——堆(�?

鑫龙 — Mon, 05 Nov 2012 12:24:00 GMT

【什么是堆�?/strong>
概念�Q�堆是一�U�特�D�的二叉树，具备以下两种性质
1�Q�每个节点的值都大于�Q�或者都��于�Q�称为最��堆�Q�其子节点的�?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />2�Q�树是完全��^衡的�Q��ƈ且最后一层的树叶都在最左边
�q�样��定义了一个最大堆。如下图用一个数�l�来表示堆：
那么下面介绍二叉堆：二叉堆是一�U�完全二叉树�Q�其��L��子树的左双��点（如果有的话）的键��g��定比根节点大�Q�上囑օ�实就是一个二叉堆�?/p>
你一定发觉了�Q�最��的一个元素就是数�l�第一个元素，那么二叉堆这�U�有序队列如何入队呢�Q�看图：
假设要在�q�个二叉堆里入队一个单元，键��gؓ2�Q�那只需在数�l�末��֊�入这个元素，然后��可能把�q�个元素往上挪�Q�直到挪不动�Q�经�q�了�q�种复杂度�ؓΟ(logn)的操作，二叉堆还是二叉堆�?/p>
那如何出队呢�Q�也不难�Q�看图：

出队一定是出数�l�的�W�一个元素，�q�么来第一个元素以前的位置��成了空位，我们需要把�q�个�I�Z��挪至叶子节点�Q�然后把数组最后一个元素插入这个空位，把这�?#8220;�I�Z��”��量往上挪。这�U�操作的复杂度也�?#927;(logn)�?/p>
【适用范围�?/strong>
��量数据前n大，�q�且n比较��，堆可以放入内�?/span>
【基本原理及要点�?/strong>
最大堆求前n��，最��堆求前n大。方法，比如求前n��，我们比较当前元素与最大堆里的最大元素，如果它小于最大元素，则应该替换那个最大元素。这��h��后得到的n个元素就是最��的n个。适合大数据量�Q�求前n��，n的大��比较小的情况，�q�样可以扫描一遍即可得到所有的前n元素�Q�效率很高�?/span>
【扩展�?/strong>
双堆�Q�一个最大堆与一个最��堆�l�合�Q�可以用来维护中位数�?/span>
【问题实例�?/strong>
1)100w个数中找最大的�?00个数�?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />用一�?00个元素大��的最��堆卛_��?/span>
做�h要厚道：转蝲��h��明出处：http://diducoder.com/mass-data-topic-5-heap.html

鑫龙 2012-11-05 20:24 发表评论

��量数据处理专题�Q�四�Q�——Bit-map(�?

鑫龙 — Mon, 05 Nov 2012 12:24:00 GMT

【什么是Bit-map�?/strong>
所谓的Bit-map��是用一个bit位来标记某个元素对应的Value�Q?而Key��x��该元素。由于采用了Bit为单位来存储数据�Q�因此在存储�I�间斚w��Q�可以大大节省�?/p>
如果说了�q�么多还没明白什么是Bit-map�Q�那么我们来看一个具体的例子�Q�假设我们要�?-7内的5个元�?4,7,2,5,3)排序�Q�这里假设这些元素没有重复）。那么我们就可以采用Bit-map的方法来辑ֈ�排序的目的。要表示8个数�Q�我们就只需�?个Bit�Q?Bytes�Q�，首先我们开�?Byte的空��_��这些空间的所有Bit位都�|��ؓ0(如下图：)
然后遍历�q?个元素，首先�W�一个元素是4�Q�那么就�?对应的位�|��ؓ1�Q�可以这��h��?p+(i/8)|(0×01<<(i%8)) 当然了这里的操作涉及到Big-ending和Little-ending的情况，�q�里默认为Big-ending�Q?因�ؓ是从零开始的�Q�所以要把第五位�|��ؓ一�Q�如下图�Q�：
然后再处理第二个元素7�Q�将�W�八位置�?,�Q�接着再处理第三个元素�Q�一直到最后处理完所有的元素�Q�将相应的位�|��ؓ1�Q�这时候的内存的Bit位的状态如下：
然后我们现在遍历一遍Bit区域�Q�将该位是一的位的编可��出（2�Q?�Q?�Q?�Q?�Q�，�q�样��p��C��排序的目的。下面的代码�l�出了一个BitMap的用法：排序�?/p>
//定义每个Byte中有8个Bit�?#include �Q�memory.h�Q?#define BYTESIZE 8 void SetBit(char *p, int posi) { for(int i=0; i �Q?(posi/BYTESIZE); i++) { p++; } *p = *p|(0x01�Q�＜(posi%BYTESIZE));//��该Bit位赋�? return; } void BitMapSortDemo() { //��Z��单�v见，我们不考虑负数 int num[] = {3,5,2,10,6,12,8,14,9}; //BufferLen�q�个值是�Ҏ��待排序的数据中最大值确定的 //待排序中的最大值是14�Q�因此只需�?个Bytes(16个Bit) //��可以了�? const int BufferLen = 2; char *pBuffer = new char[BufferLen]; //要将所有的Bit位置�?�Q�否则结果不可预知�? memset(pBuffer,0,BufferLen); for(int i=0;i�Q?;i++) { //首先��相应Bit位上�|��ؓ1 SetBit(pBuffer,num[i]); } //输出排序�l�果 for(int i=0;i�Q�BufferLen;i++)//每次处理一个字�?Byte) { for(int j=0;j�Q�BYTESIZE;j++)//处理该字节中的每个Bit�? { //判断该位上是否是1�Q�进行输出，�q�里的判断比较笨�? //首先得到该第j位的掩码�Q?x01�Q�＜j�Q�，��内存区中的 //位和此掩码作与操作。最后判断掩码是否和处理后的 //�l�果相同 if((*pBuffer&(0x01�Q�＜j)) == (0x01�Q�＜j)) { printf("%d ",i*BYTESIZE + j); } } pBuffer++; } } int _tmain(int argc, _TCHAR* argv[]) { BitMapSortDemo(); return 0; }
【适用范围�?/strong>
可进行数据的快速查找，判重�Q�删除，一般来说数据范围是int�?0倍以�?/p>
【基本原理及要点�?/strong>
使用bit数组来表�C�某些元素是否存在，比如8位电话号�?/p>
【扩展�?/strong>
Bloom filter可以看做是对bit-map的扩�?/p>
【问题实例�?/strong>
1)已知某个文�g内包含一些电话号码，每个��L��?位数字，�l�计不同��L��的个数�?/strong>
8位最�?9 999 999�Q�大概需�?9m个bit�Q�大�?0几m字节的内存即可�?�Q�可以理解�ؓ�?-99 999 999的数字，每个数字对应一个Bit位，所以只需�?9M个Bit==12.4MBytes�Q�这��P��q��了小��的12.4M左右的内存表�C�Z��所有的8位数的电话）
2)2.5亿个整数中找��Z��重复的整数的个数�Q�内存空间不��以容纳�q?.5亿个整数�?/strong>
��bit-map扩展一下，�?bit表示一个数卛_��Q?表示未出玎ͼ�1表示出现一�ơ，2表示出现2�ơ及以上�Q�在遍历�q�些数的时候，如果对应位置的值是0�Q�则��其�|��ؓ1�Q�如果是1�Q�将其置�?�Q�如果是2�Q�则保持不变。或者我们不�?bit来进行表�C�，我们用两个bit-map卛_��模拟实现�q�个2bit-map�Q�都是一��L��道理�?/p>
做�h好厚道，转蝲��h��明出处：http://diducoder.com/mass-data-4-bitmap.html

鑫龙 2012-11-05 20:24 发表评论

��量数据处理专题�Q�三�Q�——Hash(�?

鑫龙 — Mon, 05 Nov 2012 12:19:00 GMT

【什么是Hash�?/span>
Hash�Q�一般翻译做“散列”�Q�也有直接音译�ؓ“哈希”的，��是把�Q意长度的输入�Q�又叫做预映��， pre-image�Q�，通过散列��法�Q�变换成固定长度的输出，该输出就是散列倹{��这�U��{换是一�U�压�~�映��，也就是，散列值的�I�间通常�q�小于输入的�I�间�Q�不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入倹{��简单的说就是一�U�将��L��长度的消息压�~�到某一固定长度�?a style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; color: #1982d1; text-decoration: none; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-style: inherit; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; ">消息摘要的函数�?/p>
HASH主要用于信息安全领域中加密算法，它把一些不同长度的信息转化成杂��q��128位的�~�码,�q�些�~�码值叫做HASH�? 也可以说�Q�hash��是扑ֈ�一�U�数据内容和数据存放地址之间的映��关�p�R�?/p>
数组的特�Ҏ��Q�寻址�Ҏ��Q�插入和删除困难�Q�而链表的特点是：��d��困难�Q�插入和删除�Ҏ��。那么我们能不能�l�合两者的�Ҏ��，做出一�U�寻址�Ҏ��Q�插入删除也�Ҏ��的数据结构？�{�案是肯定的�Q�这��是我们要提��L��哈希表，哈希表有多种不同的实现方法，我接下来解释的是最常用的一�U�方�?#8212;—拉链法，我们可以理解�?#8220;链表的数�l?#8221;�Q�如图：
左边很明显是个数�l�，数组的每个成员包括一个指针，指向一个链表的��_��当然�q�个链表可能为空�Q�也可能元素很多。我们根据元素的一些特征把元素分配��C��同的链表中去�Q�也是根据这些特征，扑ֈ�正确的链表，再从链表中找��个元素�?/p>
元素特征转变为数�l�下标的�Ҏ��是散列法。散列法当然不止一�U�，下面列出三种比较常用的�?/p>
1�Q�除法散列法
最直观的一�U�，上图使用的就是这�U�散列法�Q�公式：
index = value % 16
学过汇编的都知道�Q�求模数其实是通过一个除法运��得到的�Q�所以叫“除法散列�?#8221;�?/p>
2�Q��^�Ҏ��列法
求index是非帔R��J�的操作�Q�而乘法的�q�算要比除法来得省时�Q�对现在的CPU来说�Q�估计我们感觉不出来�Q�，所以我们考虑把除法换成乘法和一个位�U�L��作。公式：
index = (value * value) >> 28
如果数值分配比较均匀的话�q�种�Ҏ��能得��C��错的�l�果�Q�但我上面画的那个图的各个元素的值算出来的index都是0——非常��p�|。也�怽��q�有个问题，value如果很大�Q�value * value不会溢出吗？�{�案是会的，但我们这个乘法不兛_��溢出�Q�因为我们根本不是�ؓ了获取相乘结果，而是��Z��获取index�?/p>
3�Q�斐波那契（Fibonacci�Q�散列法
�q�x��散列法的�~�点是显而易见的�Q�所以我们能不能扑և�一个理想的乘数�Q�而不是拿value本��n当作乘数呢？�{�案是肯定的�?/p>
1�Q�对�?6位整数而言�Q�这个乘数是40503
2�Q�对�?2位整数而言�Q�这个乘数是2654435769
3�Q�对�?4位整数而言�Q�这个乘数是11400714819323198485
�q�几�?#8220;理想乘数”是如何得出来的呢�Q�这跟一个法则有养I��叫黄金分割法则，而描�q�黄金分割法则的最�l�典表达式无疑就是著名的斐�L那契数列�Q�如果你�q�有兴趣�Q�就到网上查找一�?#8220;斐�L那契数列”�{�关键字�Q�我数学水��^有限�Q�不知道怎么描述清楚��Z��么，另外斐�L那契数列的值居然和太阳�p�d��大行星的轨道半径的比例出奇吻合，很神奇，对么�Q?/p>
�Ҏ��们常见的32位整数而言�Q�公式：
i ndex = (value * 2654435769) >> 28
如果用这�U�斐波那契散列法的话�Q�那我上面的囑ְ�变成�q�样了：

很明显，用斐波那契散列法调整之后要比原来的取摸散列法好很多�?/p>
【适用范围�?/span>
快速查找，删除的基本数据结构，通常需要��L��据量可以攑օ�内存�?/p>
【基本原理及要点�?/strong>
hash函数选择�Q�针对字�W�串�Q�整敎ͼ�排列�Q�具体相应的hash�Ҏ��?br style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; " />��撞处理�Q�一�U�是open hashing�Q�也�U�Cؓ拉链法；另一�U�就是closed hashing�Q�也�U�开地址法，opened addressing�?/p>
【扩展�?/strong>
d-left hashing中的d是多个的意思，我们先简化这个问题，看一�?-left hashing�?-left hashing指的是将一个哈希表分成长度相等的两半，分别叫做T1和T2�Q�给T1和T2分别配备一个哈希函敎ͼ�h1和h2。在存储一个新的key�Ӟ��?时用两个哈希函数�q�行计算�Q�得��Z��个地址h1[key]和h2[key]。这旉��要检查T1中的h1[key]位置和T2中的h2[key]位置�Q�哪一�?位置已经存储的（有碰撞的�Q�key比较多，然后��新key存储在负载少的位�|�。如果两边一样多�Q�比如两个位�|�都为空或者都存储了一个key�Q�就把新key 存储在左边的T1子表中，2-left也由此而来。在查找一个key�Ӟ��必须�q�行两次hash�Q�同时查找两个位�|��?/p>
【问题实例�?/strong>
1).��量日志数据�Q�提取出某日讉K��癑ֺ��ơ数最多的那个IP�?/p>
IP的数目还是有限的�Q�最�?^32个，所以可以考虑使用hash��ip直接存入内存�Q�然后进行统计�?/p>
做�h要厚道，转蝲��h��明出处： http://diducoder.com/mass-data-topic-3-hash.html

鑫龙 2012-11-05 20:19 发表评论

��量数据处理专题�Q�二�Q�——Bloom Filter(�?

鑫龙 — Mon, 05 Nov 2012 12:03:00 GMT

【什么是Bloom Filter�?/h1>
Bloom Filter是一�U�空间效率很高的随机数据�l�构�Q�它利用位数�l�很��z�地表示一个集合，�q�能判断一个元素是否属于这个集合。Bloom Filter的这�U�高效是有一定代��L��Q�在判断一个元素是否属于某个集合时�Q�有可能会把不属于这个集合的元素误认为属于这个集合（false positive�Q�。因此，Bloom Filter不适合那些“雉��?#8221;的应用场合。而在能容忍低错误率的应用场合下，采用Bloom Filter的数据结构，可以通过极少的错误换取了存储�I�间的极大节省�?nbsp;�q�里有一��关�?a style="padding-top: 0px; padding-right: 0px; padding-bottom: 0px; padding-left: 0px; margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; color: #1982d1; text-decoration: none; border-top-width: 0px; border-right-width: 0px; border-bottom-width: 0px; border-left-width: 0px; border-style: initial; border-color: initial; font-style: inherit; outline-width: 0px; outline-style: initial; outline-color: initial; vertical-align: baseline; ">Bloom Filter的详�l�介�l�，不太懂的博友可以看看�?/span>
【适用范围�?/h1>
可以用来实现数据字典�Q�进行数据的判重�Q�或者集合求交集
【基本原理及要点�?/h1>
对于原理来说很简单，位数�l�外加k个独立hash函数。Bloom filter提供两种基本的操作，��元素加入集合和判断某一元素是否属于该集合，一下说�?/span>如何操作�Q?/span>
��一个元素加入集合：首先��要加入集合的元素用k个hash函数�q�行hash�Q�得到k个hash index�Q�然后在集合的位数组中将�q�k个hash index的位�|�置1�Q�下面用两幅图来描述�q�个�q�程�?/span>
bloom filter位数�l�（集合�Q�的初始状�?/p>
插入两个个元素，X1�Q�X2�Q?/div>
bloom-filter-插入元素
查找元素是否属于该集合：首先同样用定义的hash函数对该元素�q�行hash得到hash index�Q�然后查位数�l�中对应的hash index是否都是1�Q�如果是�Q�则表明该元素属于该集合�Q�反之不属于【当然不全是了，��L��l�看后面�?/span>�Q�如图，判断元素Y1�Q�Y2是否属于该集合�?/span>
bloom-filter-判断元素是否属于集合
如上图，�׃��y1的三个hash index有一个不�?�Q�因此不属于该集合，而y2所有的hash index的位�|�上都�ؓ1�Q�因此属于该集合�?/span>
【Bloom Filter的不��?/h1>
很明显上面这个查找过�E��ƈ不保证查扄��l�果�?00%正确的。同时也不支持删除一个已�l�插入的关键字，因�ؓ该关键字对应的位会牵动到其他的关键字。所以一个简单的改进��是 counting Bloom filter�Q�用一个counter数组代替位数�l�，��可以支持删除了�?/span>
�q�有一个比较重要的问题�Q�如何根据输入元素个数n�Q�确定位数组m的大��及hash函数个数。当hash函数个数k=(ln2)*(m/n)旉��误率最��。在错误率不大于E的情�?下，m臛_��要等于n*lg(1/E)才能表示��L��n个元素的集合。但m�q�应该更大些�Q�因��要保证bit数组里至��一半�ؓ0�Q�则m�?�?gt;=nlg(1/E)*lge 大概��是nlg(1/E)1.44�?lg表示�?为底的对�?�?/span>
举个例子我们假设错误率�ؓ0.01�Q�则此时m应大概是n�?3倍。这样k大概�?个�?/span>
注意�q�里m与n的单位不同，m是bit为单位，而n则是以元素个��Cؓ单位(准确的说是不同元素的个数)。通常单个元素的长度都是有很多bit的。所以��用bloom filter内存上通常都是节省的�?/span>
【扩展�?/h1>
Bloom filter��集合中的元素映��到位数�l�中�Q�用k�Q�k为哈希函��C��敎ͼ�个映��位是否�?表示元素在不在这个集合中。Counting bloom filter�Q�CBF�Q�将位数�l�中的每一位扩展�ؓ一个counter�Q�从而支持了元素的删除操作。Spectral Bloom Filter�Q�SBF�Q�将其与集合元素的出现次数关联。SBF采用counter中的最��值来�q�似表示元素的出现频率�?/span>
【问题实例�?/h1>
�l�你A,B两个文�g�Q�各存放50亿条URL�Q�每条URL占用64字节�Q�内存限制是4G�Q�让你找出A,B文�g共同的URL。如果是三个乃至n个文件呢�Q?/span>
�Ҏ��q�个问题我们来计��下内存的占用，4G=2^32大概�?0�?8大概�?40亿，n=50亿，如果按出错率0.01��需要的大概�?50亿个bit�?现在可用的是340亿，相差�q�不多，�q�样可能会��出错率上升些。另外如果这些urlip是一一对应的，��可以�{换成ip�Q�则大大��单了�?/span>
做�h好厚道，转蝲��h��明出处：http://diducoder.com/mass-data-topic-2-bloom-filter.html

鑫龙 2012-11-05 20:03 发表评论

��量数据处理专题�Q�一�Q?�?

鑫龙 — Mon, 05 Nov 2012 12:02:00 GMT

大数据量的问题是很多面试�W�试中经常出现的问题�Q�比如baidu google 腾讯 �q�样的一些涉及到��量数据的公司经�怼�问到�?/span>
　　下面的方法是我对��量数据的处理方法进行了一个一般性的�ȝ��Q�当然这些方法可能�ƈ不能完全覆盖所有的问题�Q�但是这��L��一些方法也基本可以处理�l�大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，�Ҏ��不一定最优，如果你有更好的处理方法，�Ƣ迎与我讨论�?/span>

　　本脓从解册��c�问题的�Ҏ��入手�Q�开辟一�p�d��专题来解��x�v量数据问题。拟包含以下几个斚w��?/span>
Bloom Filter
Hash
Bit-Map
�?Heap)
双层桶划�?/span>
数据库烦�?/span>
倒排索引�Q�Inverted Index�Q?/span>
外排�?/span>
Trie�?/span>
MapReduce
在这些解��x��案之上，再借助一定的例子来剖析�v量数据处理问题的解决�Ҏ��?/span>
其实在园子里面好多类似的面试题都可以用这��L��Ҏ��来解�{�，比如癑ֺ�的TopK热门查询问题�Q�某日IP最多访问问题�?/span>
把这�c�问题研�I�好了，面试像百度，腾讯�q�样的公司就完全没问题了�Q�！�Q?/span>

鑫龙 2012-11-05 20:02 发表评论

教你如何�q�速秒杀99%的�v量数据处理面试题(�?

鑫龙 — Mon, 05 Nov 2012 11:58:00 GMT
摘要: 教你如何�q�速秒杀99%的�v量数据处理面试题前言一般而言�Q�标题含�?#8220;�U�杀”�Q?#8220;史上最�?最�?#8221;�{�词汇的往往都脱不了哗众取宠之嫌�Q�但�q�一步来�Ԍ��如果读者读�|�此文，却无��M��收获�Q�那么，我也甘愿背负�q�样的罪名，:-)�Q�同�Ӟ��此文可以看做是对�q�篇文章�Q�十道�v量数据处理面试题与十个方法大�ȝ��的一般抽象性�ȝ��?nbsp; ... 阅读全文

鑫龙 2012-11-05 19:58 发表评论

久久九九兔免费精品6,色综合久久中文字幕无码,国内精品伊人久久久影院

���量数据处理专题�Q�九�Q�——外排序(�?

【实战训�l��?/h1>淘宝不同用户的浏览log有上千万or亿数据（有重复）�Q�统计其中有相同���览爱好的用戗��?/p>转蝲��h��明出处：http://diducoder.com/mass-data-topic-9-external-sort.html

���量数据处理专题�Q�八�Q�——倒排索引(搜烦引擎之基�?(�?

倒排索引

���量数据处理专题�Q�七�Q�——数据库索引及优�?�?

数据库烦�?/h1>

什么是索引

概述

��Z��么要创徏索引

���量数据处理专题�Q�六�Q�——双层桶划分(�?

���量数据处理专题�Q�五�Q�——堆(�?

���量数据处理专题�Q�四�Q�——Bit-map(�?

���量数据处理专题�Q�三�Q�——Hash(�?

���量数据处理专题�Q�二�Q�——Bloom Filter(�?

【适用范围�?/h1>可以用来实现数据字典�Q�进行数据的判重�Q�或者集合求交集

【Bloom Filter的不����?/h1>

���量数据处理专题�Q�一�Q?�?

教你如何�q�速秒杀99%的�v量数据处理面试题(�?

��量数据处理专题�Q�九�Q�——外排序(�?

【实战训�l��?/h1>
淘宝不同用户的浏览log有上千万or亿数据（有重复）�Q�统计其中有相同��览爱好的用戗��?/p>
转蝲��h��明出处：http://diducoder.com/mass-data-topic-9-external-sort.html

��量数据处理专题�Q�八�Q�——倒排索引(搜烦引擎之基�?(�?

��量数据处理专题�Q�七�Q�——数据库索引及优�?�?

��量数据处理专题�Q�六�Q�——双层桶划分(�?

��量数据处理专题�Q�五�Q�——堆(�?

��量数据处理专题�Q�四�Q�——Bit-map(�?

��量数据处理专题�Q�三�Q�——Hash(�?

��量数据处理专题�Q�二�Q�——Bloom Filter(�?

【适用范围�?/h1>
可以用来实现数据字典�Q�进行数据的判重�Q�或者集合求交集

【Bloom Filter的不��?/h1>

��量数据处理专题�Q�一�Q?�?