海量數據處理專題（七）——數據庫索引及優化(轉)

Posted on 2012-11-05 20:28 鑫龍閱讀(277) 評論(0) 編輯收藏引用所屬分類: 海量數據處理

索引是對數據庫表中一列或多列的值進行排序的一種結構，使用索引可快速訪問數據庫表中的特定信息。

數據庫索引

什么是索引

數據庫索引好比是一本書前面的目錄，能加快數據庫的查詢速度。

例如這樣一個查詢：select * from table1 where id=44。如果沒有索引，必須遍歷整個表，直到ID等于44的這一行被找到為止；有了索引之后(必須是在ID這一列上建立的索引)，直接在索引里面找44（也就是在ID這一列找），就可以得知這一行的位置，也就是找到了這一行。可見，索引是用來定位的。

索引分為聚簇索引和非聚簇索引兩種，聚簇索引是按照數據存放的物理位置為順序的，而非聚簇索引就不一樣了；聚簇索引能提高多行檢索的速度，而非聚簇索引對于單行的檢索很快。

概述

建立索引的目的是加快對表中記錄的查找或排序。

為表設置索引要付出代價的：一是增加了數據庫的存儲空間，二是在插入和修改數據時要花費較多的時間(因為索引也要隨之變動)。

B樹索引-Sql Server索引方式

為什么要創建索引

創建索引可以大大提高系統的性能。

第一，通過創建唯一性索引，可以保證數據庫表中每一行數據的唯一性。
第二，可以大大加快數據的檢索速度，這也是創建索引的最主要的原因。
第三，可以加速表和表之間的連接，特別是在實現數據的參考完整性方面特別有意義。
第四，在使用分組和排序子句進行數據檢索時，同樣可以顯著減少查詢中分組和排序的時間。
第五，通過使用索引，可以在查詢的過程中，使用優化隱藏器，提高系統的性能。

也許會有人要問：增加索引有如此多的優點，為什么不對表中的每一個列創建一個索引呢？因為，增加索引也有許多不利的方面。

第一，創建索引和維護索引要耗費時間，這種時間隨著數據量的增加而增加。
第二，索引需要占物理空間，除了數據表占數據空間之外，每一個索引還要占一定的物理空間，如果要建立聚簇索引，那么需要的空間就會更大。
第三，當對表中的數據進行增加、刪除和修改的時候，索引也要動態的維護，這樣就降低了數據的維護速度。

在哪建索引

索引是建立在數據庫表中的某些列的上面。在創建索引的時候，應該考慮在哪些列上可以創建索引，在哪些列上不能創建索引。一般來說，應該在這些列上創建索引：

在經常需要搜索的列上，可以加快搜索的速度；
在作為主鍵的列上，強制該列的唯一性和組織表中數據的排列結構；
在經常用在連接的列上，這些列主要是一些外鍵，可以加快連接的速度；在經常需要根據范圍進行搜索的列上創建索引，因為索引已經排序，其指定的范圍是連續的；
在經常需要排序的列上創建索引，因為索引已經排序，這樣查詢可以利用索引的排序，加快排序查詢時間；
在經常使用在WHERE子句中的列上面創建索引，加快條件的判斷速度。

同樣，對于有些列不應該創建索引。一般來說，不應該創建索引的的這些列具有下列特點：

第一，對于那些在查詢中很少使用或者參考的列不應該創建索引。這是因為，既然這些列很少使用到，因此有索引或者無索引，并不能提高查詢速度。相反，由于增加了索引，反而降低了系統的維護速度和增大了空間需求。

第二，對于那些只有很少數據值的列也不應該增加索引。這是因為，由于這些列的取值很少，例如人事表的性別列，在查詢的結果中，結果集的數據行占了表中數據行的很大比例，即需要在表中搜索的數據行的比例很大。增加索引，并不能明顯加快檢索速度。

第三，對于那些定義為text, image和bit數據類型的列不應該增加索引。這是因為，這些列的數據量要么相當大，要么取值很少,不利于使用索引。

第四，當修改性能遠遠大于檢索性能時，不應該創建索引。這是因為，修改性能和檢索性能是互相矛盾的。當增加索引時，會提高檢索性能，但是會降低修改性能。當減少索引時，會提高修改性能，降低檢索性能。因此，當修改操作遠遠多于檢索操作時，不應該創建索引。

數據庫優化

此外，除了數據庫索引之外，在LAMP結果如此流行的今天，數據庫（尤其是MySQL）性能優化也是海量數據處理的一個熱點。下面就結合自己的經驗，聊一聊MySQL數據庫優化的幾個方面。

首先，在數據庫設計的時候，要能夠充分的利用索引帶來的性能提升，至于如何建立索引，建立什么樣的索引，在哪些字段上建立索引，上面已經講的很清楚了，這里不在贅述。另外就是設計數據庫的原則就是盡可能少的進行數據庫寫操作（插入，更新，刪除等），查詢越簡單越好。如下：

數據庫設計

其次，配置緩存是必不可少的，配置緩存可以有效的降低數據庫查詢讀取次數，從而緩解數據庫服務器壓力，達到優化的目的，一定程度上來講，這算是一個“圍魏救趙”的辦法。可配置的緩存包括索引緩存(key_buffer)，排序緩存(sort_buffer)，查詢緩存(query_buffer)，表描述符緩存(table_cache)，如下圖：

配置緩存

第三，切表，切表也是一種比較流行的數據庫優化方法。分表包括兩種方式：橫向分表和縱向分表，其中，橫向分表比較有使用意義，故名思議，橫向切表就是指把記錄分到不同的表中，而每條記錄仍舊是完整的（縱向切表后每條記錄是不完整的），例如原始表中有100條記錄，我要切成2個表，那么最簡單也是最常用的方法就是ID取摸切表法，本例中，就把ID為1,3,5,7。。。的記錄存在一個表中，ID為2,4,6,8,。。。的記錄存在另一張表中。雖然橫向切表可以減少查詢強度，但是它也破壞了原始表的完整性，如果該表的統計操作比較多，那么就不適合橫向切表。橫向切表有個非常典型的用法，就是用戶數據：每個用戶的用戶數據一般都比較龐大，但是每個用戶數據之間的關系不大，因此這里很適合橫向切表。最后，要記住一句話就是：分表會造成查詢的負擔，因此在數據庫設計之初，要想好是否真的適合切表的優化：

分表

第四，日志分析，在數據庫運行了較長一段時間以后，會積累大量的LOG日志，其實這里面的蘊涵的有用的信息量還是很大的。通過分析日志，可以找到系統性能的瓶頸，從而進一步尋找優化方案。

性能分析

以上講的都是單機MySQL的性能優化的一些經驗，但是隨著信息大爆炸，單機的數據庫服務器已經不能滿足我們的需求，于是，多多節點，分布式數據庫網絡出現了，其一般的結構如下：

分布式數據庫結構

這種分布式集群的技術關鍵就是“同步復制”。。。《未完待續。。。》

做人要厚道，轉載請注明出處：http://diducoder.com/mass-data-topic-7-index-and-

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: 海量數據處理專題（九）——外排序(轉) 海量數據處理專題（八）——倒排索引(搜索引擎之基石)(轉) 海量數據處理專題（七）——數據庫索引及優化(轉) 海量數據處理專題（六）——雙層桶劃分(轉) 海量數據處理專題（五）——堆(轉) 海量數據處理專題（四）——Bit-map(轉) 海量數據處理專題（三）——Hash(轉) 海量數據處理專題（二）——Bloom Filter(轉) 海量數據處理專題（一）(轉) 教你如何迅速秒殺99%的海量數據處理面試題(轉)

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

mysileng

導航

常用鏈接

留言簿

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜