人們對(duì)數(shù)據(jù)的處理需求可以分為兩種類(lèi)型,操作型處理(OLTP)和分析型處理(OLAP),傳統(tǒng)的數(shù)據(jù)庫(kù)主要是面向OLTP,注重?cái)?shù)據(jù)的計(jì)算、記錄的插入、刪除、與修改,以及簡(jiǎn)單的查詢(xún)和統(tǒng)計(jì)。它的主要任務(wù)是進(jìn)行事務(wù)處理,所關(guān)注的是事務(wù)處理的及時(shí)性、完整性和正確性,而在數(shù)據(jù)的分析處理方面存在著嚴(yán)重的不足,主要表現(xiàn)在以下一些方面。
首先是集成性的缺乏。業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)的條塊與部門(mén)分割,導(dǎo)致數(shù)據(jù)分布的分散化與無(wú)序化。業(yè)務(wù)數(shù)據(jù)庫(kù)缺乏統(tǒng)一的定義與規(guī)劃,導(dǎo)致數(shù)據(jù)的定義存在歧義;其次是主題不明確,建立數(shù)據(jù)庫(kù)的目的就是為了滿(mǎn)足事務(wù)處理的需要,庫(kù)和表的定義與設(shè)計(jì)完全以此為基礎(chǔ)而進(jìn)行,對(duì)于數(shù)據(jù)分析而言,這些庫(kù)和表無(wú)疑缺少明確的主題。又是需要分析的數(shù)據(jù)會(huì)分散的存儲(chǔ)在不同的表和庫(kù)甚至不同的數(shù)據(jù)庫(kù)服務(wù)器中,想要對(duì)這些數(shù)據(jù)進(jìn)行有效的分析是十分困難的。然后是分析和處理的效率低下,設(shè)計(jì)基于傳統(tǒng)數(shù)據(jù)庫(kù)的應(yīng)用系統(tǒng)的核心準(zhǔn)則,是要確保事務(wù)得到及時(shí)、準(zhǔn)確的處理。因此,在業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)的構(gòu)建過(guò)程中,除了庫(kù)和表的精心設(shè)計(jì)之外,索引的建立、存儲(chǔ)過(guò)程的優(yōu)化等工作,也均以此為中心展開(kāi),這樣雖然充分提高了事務(wù)處理的效率,但是數(shù)據(jù)分析處理的效率卻無(wú)法得到保證。
傳統(tǒng)數(shù)據(jù)庫(kù)由于自身?xiàng)l件的限制,無(wú)法擔(dān)當(dāng)作為大規(guī)模數(shù)據(jù)綜合分析平臺(tái)的重任,企業(yè)的決策迫切需要有一種新的理論與技術(shù)來(lái)提供支持,這就是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)。
數(shù)據(jù)倉(cāng)庫(kù)就是面向主題的、集成的、隨時(shí)間變化的、非易失的數(shù)據(jù)集合,用于支持管理層的決策過(guò)程,“面向主題、集成、隨時(shí)間變化和非易失”是它的主要特點(diǎn)。
面向主題是數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)組織的最基本原則。數(shù)據(jù)倉(cāng)庫(kù)中的所謂“主題”,是一個(gè)邏輯概念。在信息管理的層次上,主題就是從管理的角度出發(fā),對(duì)數(shù)據(jù)進(jìn)行綜合分析而抽取的,需要做進(jìn)一步分析的對(duì)象,數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)造過(guò)程首先就是確定主題的過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)者必須明確該數(shù)據(jù)倉(cāng)庫(kù)所支持的決策內(nèi)容,即數(shù)據(jù)倉(cāng)庫(kù)的用途,并將決策內(nèi)容歸納為若干個(gè)具體的易于利用數(shù)據(jù)進(jìn)行組織加以分析的主題。
數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的集成性是指,在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中,多個(gè)外部數(shù)據(jù)源內(nèi)格式不同、定義各異的數(shù)據(jù),按照既定的策略經(jīng)過(guò)抽取、清洗、轉(zhuǎn)換等一系列處理。最終構(gòu)成一個(gè)有機(jī)的整體。傳統(tǒng)業(yè)務(wù)處理程序的側(cè)重點(diǎn)在于迅速、正確地處理所有業(yè)務(wù),記錄業(yè)務(wù)內(nèi)容和處理結(jié)果,而不是對(duì)決策提供支持。數(shù)據(jù)倉(cāng)庫(kù)直接使用傳統(tǒng)業(yè)務(wù)處理的結(jié)果,進(jìn)行數(shù)據(jù)分析。
數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的非易失性,包括兩個(gè)方面的含義,其一是指數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容的更新、追加等操作是不頻繁的,一般基于一定的周期或條件閾值進(jìn)行;其二是指,數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)后,雖然也有刪除更新等操作,但決定這種操作的閾值條件是較難滿(mǎn)足的,這種情況的發(fā)生是非常罕見(jiàn)的。
數(shù)據(jù)的時(shí)變性,是指數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容隨時(shí)間的變化不斷得到補(bǔ)充、更新。其實(shí)質(zhì)就是建立業(yè)務(wù)數(shù)據(jù)與時(shí)間的對(duì)應(yīng)關(guān)系,即以時(shí)間為坐標(biāo)軸,對(duì)既定時(shí)間點(diǎn)的業(yè)務(wù)數(shù)據(jù)生成“快照”,各個(gè)時(shí)間點(diǎn)的快照連接起來(lái),就構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容的動(dòng)態(tài)連續(xù)變化圖,為決策者提供有效的依據(jù)。
從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù),完成了數(shù)據(jù)挖掘的最重要一步,為數(shù)據(jù)挖掘接下來(lái)的步驟的順利進(jìn)行大好了基礎(chǔ)。數(shù)據(jù)挖掘的各項(xiàng)操作都是在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上進(jìn)行的。數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建是一門(mén)大學(xué)問(wèn)。
posted on 2009-03-27 10:58
李陽(yáng) 閱讀(208)
評(píng)論(0) 編輯 收藏 引用