什么是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)的組成
數(shù)據(jù)倉(cāng)庫(kù)是為企業(yè)所有級(jí)別的決策制定過(guò)程,提供所有類(lèi)型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個(gè)數(shù)據(jù)存儲(chǔ),出于分析性報(bào)告和決策支持目的而創(chuàng)建。那么你對(duì)數(shù)據(jù)倉(cāng)庫(kù)了解多少呢?以下是由學(xué)習(xí)啦小編整理關(guān)于什么是數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容,希望大家喜歡!
數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)
1、數(shù)據(jù)倉(cāng)庫(kù)是面向主題的;操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指用戶(hù)使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。
2、數(shù)據(jù)倉(cāng)庫(kù)是集成的,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)有來(lái)自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來(lái)的數(shù)據(jù)中抽取出來(lái),進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉(cāng)庫(kù);
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢(xún),一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢(xún)操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到當(dāng)前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。
3、數(shù)據(jù)倉(cāng)庫(kù)是不可更新的,數(shù)據(jù)倉(cāng)庫(kù)主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢(xún);
4、數(shù)據(jù)倉(cāng)庫(kù)是隨時(shí)間而變化的,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿(mǎn)足商業(yè)商務(wù)處理的需求。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時(shí)間改變。
5、匯總的。操作性數(shù)據(jù)映射成決策可用的格式。
6、大容量。時(shí)間序列數(shù)據(jù)集合通常都非常大。
7、非規(guī)范化的。Dw數(shù)據(jù)可以是而且經(jīng)常是冗余的。
8、元數(shù)據(jù)。將描述數(shù)據(jù)的數(shù)據(jù)保存起來(lái)。
9、數(shù)據(jù)源。數(shù)據(jù)來(lái)自?xún)?nèi)部的和外部的非集成操作系統(tǒng)。
數(shù)據(jù)倉(cāng)庫(kù),是在數(shù)據(jù)庫(kù)已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它并不是所謂的“大型數(shù)據(jù)庫(kù)”。數(shù)據(jù)倉(cāng)庫(kù)的方案建設(shè)的目的,是為前端查詢(xún)和分析作為基礎(chǔ),由于有較大的冗余,所以需要的存儲(chǔ)也較大。
數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)
數(shù)據(jù)源
是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類(lèi)文檔數(shù)據(jù)。外部信息包括各類(lèi)法律法規(guī)、市場(chǎng)信息和競(jìng)爭(zhēng)對(duì)手的信息等等;
數(shù)據(jù)的存儲(chǔ)與管理
是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心。數(shù)據(jù)倉(cāng)庫(kù)的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù),同時(shí)也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)的核心,則需要從數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)特點(diǎn)著手分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉(cāng)庫(kù)按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和部門(mén)級(jí)數(shù)據(jù)倉(cāng)庫(kù)(通常稱(chēng)為數(shù)據(jù)集市)。
OLAP服務(wù)器
對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢(shì)。其具體實(shí)現(xiàn)可以分為:ROLAP(關(guān)系型在線(xiàn)分析處理)、MOLAP(多維在線(xiàn)分析處理)和HOLAP(混合型線(xiàn)上分析處理)。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫(kù)中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫(kù)中。
前端工具
主要包括各種報(bào)表工具、查詢(xún)工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以數(shù)據(jù)挖掘及各種基于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的應(yīng)用開(kāi)發(fā)工具。其中數(shù)據(jù)分析工具主要針對(duì)OLAP服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具主要針對(duì)數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)倉(cāng)庫(kù)的組成
數(shù)據(jù)抽取工具
把數(shù)據(jù)從各種各樣的存儲(chǔ)方式中拿出來(lái),進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉(cāng)庫(kù)內(nèi)。對(duì)各種不同數(shù)據(jù)存儲(chǔ)方式的訪(fǎng)問(wèn)能力是數(shù)據(jù)抽取工具的關(guān)鍵,應(yīng)能生成COBOL程序、MVS作業(yè)控制語(yǔ)言(JCL)、UNIX腳本、和SQL語(yǔ)句等,以訪(fǎng)問(wèn)不同的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換都包括,刪除對(duì)決策應(yīng)用沒(méi)有意義的數(shù)據(jù)段;轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱(chēng)和定義;計(jì)算統(tǒng)計(jì)和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦給缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一。
數(shù)據(jù)庫(kù)
是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對(duì)數(shù)據(jù)檢索的支持。相對(duì)于操縱型數(shù)據(jù)庫(kù)來(lái)說(shuō)其突出的特點(diǎn)是對(duì)海量數(shù)據(jù)的支持和快速的檢索技術(shù)。
元數(shù)據(jù)
元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)??蓪⑵浒从猛镜牟煌譃閮深?lèi),技術(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。
技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和管理人員用于開(kāi)發(fā)和日常管理數(shù)據(jù)倉(cāng)庫(kù)使用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉(zhuǎn)換的描述;數(shù)據(jù)倉(cāng)庫(kù)內(nèi)對(duì)象和數(shù)據(jù)結(jié)構(gòu)的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時(shí)用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶(hù)訪(fǎng)問(wèn)權(quán)限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導(dǎo)入歷史記錄,信息發(fā)布?xì)v史記錄等。
商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。包括:業(yè)務(wù)主題的描述,包含的數(shù)據(jù)、查詢(xún)、報(bào)表;
元數(shù)據(jù)為訪(fǎng)問(wèn)數(shù)據(jù)倉(cāng)庫(kù)提供了一個(gè)信息目錄(informationdirectory),這個(gè)目錄全面描述了數(shù)據(jù)倉(cāng)庫(kù)中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、和怎么訪(fǎng)問(wèn)這些數(shù)據(jù)。是數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行和維護(hù)的中心,數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器利用他來(lái)存貯和更新數(shù)據(jù),用戶(hù)通過(guò)他來(lái)了解和訪(fǎng)問(wèn)數(shù)據(jù)。
數(shù)據(jù)集市
為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉(cāng)庫(kù)中獨(dú)立出來(lái)的一部分?jǐn)?shù)據(jù),也可稱(chēng)為部門(mén)數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施過(guò)程中往往可以從一個(gè)部門(mén)的數(shù)據(jù)集市著手,以后再用幾個(gè)數(shù)據(jù)集市組成一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)。需要注意的就是在實(shí)施不同的數(shù)據(jù)集市時(shí),同一含義的字段定義一定要相容,這樣在以后實(shí)施數(shù)據(jù)倉(cāng)庫(kù)時(shí)才不會(huì)造成大麻煩。
國(guó)外知名的Garnter關(guān)于數(shù)據(jù)集市產(chǎn)品報(bào)告中,位于第一象限的敏捷商業(yè)智能產(chǎn)品有QlikView, Tableau和SpotView,都是全內(nèi)存計(jì)算的數(shù)據(jù)集市產(chǎn)品,在大數(shù)據(jù)方面對(duì)傳統(tǒng)商業(yè)智能產(chǎn)品巨頭形成了挑戰(zhàn)。國(guó)內(nèi)BI產(chǎn)品起步較晚,知名的敏捷型商業(yè)智能產(chǎn)品有PowerBI, 永洪科技的Z-Suite,SmartBI,F(xiàn)ineBI商業(yè)智能軟件等,其中永洪科技的Z-Data Mart是一款熱內(nèi)存計(jì)算的數(shù)據(jù)集市產(chǎn)品。國(guó)內(nèi)的德昂信息也是一家數(shù)據(jù)集市產(chǎn)品的系統(tǒng)集成商。
數(shù)據(jù)倉(cāng)庫(kù)管理
安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計(jì)和報(bào)告數(shù)據(jù)倉(cāng)庫(kù)的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲(chǔ)管理。
信息發(fā)布系統(tǒng)
把數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶(hù)?;赪eb的信息發(fā)布系統(tǒng)是對(duì)付多用戶(hù)訪(fǎng)問(wèn)的最有效方法。
訪(fǎng)問(wèn)工具
為用戶(hù)訪(fǎng)問(wèn)數(shù)據(jù)倉(cāng)庫(kù)提供手段。有數(shù)據(jù)查詢(xún)和報(bào)表工具;應(yīng)用開(kāi)發(fā)工具;管理信息系統(tǒng)(EIS)工具;在線(xiàn)分析(OLAP)工具;數(shù)據(jù)挖掘工具。
看過(guò)“數(shù)據(jù)倉(cāng)庫(kù)的組成“的人還看了:
1.ERP系統(tǒng)中數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用
2.ETL工具在構(gòu)建完整的數(shù)據(jù)倉(cāng)庫(kù)
3.基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的保險(xiǎn)業(yè)統(tǒng)計(jì)分析