六月丁香五月婷婷,丁香五月婷婷网,欧美激情网站,日本护士xxxx,禁止18岁天天操夜夜操,18岁禁止1000免费,国产福利无码一区色费

學(xué)習(xí)啦>論文大全>職稱論文>

OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建論文

時間: 謝樺657 分享

  數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。以下是學(xué)習(xí)啦小編今天為大家精心準(zhǔn)備的:OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建相關(guān)論文。內(nèi)容僅供閱讀與參考!

  OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建全文如下:

  1 OLAM模型

  本文提出的OLAM模型對OLAP中數(shù)據(jù)立方體和星型模式的概念分別進(jìn)行了拓展,涵蓋問題的整個搜索空間,能夠比較全面地反映多維數(shù)據(jù)挖掘的實(shí)質(zhì).下面描述相應(yīng)的理論方法、基本權(quán)標(biāo)和數(shù)據(jù)結(jié)構(gòu).

  1.1 從數(shù)據(jù)立方體到影響域

  本文在OLAM模型中引進(jìn)基本權(quán)標(biāo):影響域(influencedomain).影響域與多維空間的數(shù)據(jù)立方體在邏輯上是等價的.但立方體上計算的是聚合(aggregation),而影響域上計算的是蘊(yùn)涵(implication),即數(shù)據(jù)中隱藏的模式.影響域同立方體一樣具有屬性和值,不同點(diǎn)在于它具有置信度(confidence).

  立方體將維映射至度量,而影響域?qū)⒕S和度量映射至置信而影響域?qū)⒍?一個影響域可視為一個函數(shù),其映射關(guān)系從維和度量映射至一置信度級別.影響域可視為是廣義概念上的數(shù)據(jù)立方體空間,因?yàn)橛绊懹虻拇笮⊥ǔ1葦?shù)據(jù)立方體要大得多,OLAM分析常常在更細(xì)的粒度上分析更多的維,或?qū)Χ鄠€特性之間的關(guān)系進(jìn)行探索.由于每次重新計算的代價太昂貴,所以需要在比星型模式存儲有更多的聚合的模式上進(jìn)行,即采用下一節(jié)所提出的旋轉(zhuǎn)模式.為了“遍歷”整個影響域,需要將OLAP運(yùn)算與影響性分析交叉.可以看出,影響域的操作可在多維和多層次的抽象空間中進(jìn)行,有利于靈活地挖掘知識.而文獻(xiàn)〔3,4,5〕的操作是基于數(shù)據(jù)立方體的多維數(shù)據(jù)挖掘,包含在基于影響域的操作之內(nèi),是其中的特例.影響域概念可用面向?qū)ο蟮乃枷朊枋?這樣有助于生成一個較好的結(jié)構(gòu)化的框架.影響域包含六個主要特性:(1)基本維(類);(2)屬性;(3)對象或?qū)嵗?(4)層次;(5)度量;(6)蘊(yùn)涵.其中,基本維是一種高層次的類型劃分,如產(chǎn)品、客戶等.每個類/維具有一屬性集合,如產(chǎn)品維具有屬性價格、顏色等.每個類/維有對象或要素作為實(shí)例,對象的每個屬性具有一個值.在類和屬性內(nèi)存在層次,例如,對類來講,商標(biāo)類是產(chǎn)品的父類;對屬性來講,屬性集合地區(qū),城市,省}是一個層次.度量是在維形成的空間上的計算.蘊(yùn)涵是在維和度量形成的立方體空間上的計算.

  1.2 從星型模式到旋轉(zhuǎn)模式

  從面向?qū)ο蟮慕嵌葋砜?數(shù)據(jù)立方體與影響域的特性不盡相同,包含基本維(類)、屬性、對象或?qū)嵗?、層次以及度量這五個特性,OLAP的星型模式通常直接映射在該對象結(jié)構(gòu)中.星型模式每個維表都可看成一個對象,對象的屬性代表在維表中的列,度量在各個維構(gòu)成的空間上進(jìn)行計算.圖1給出一個星型模式的例子,包含四個基本維:商店維、客戶維、產(chǎn)品維和定貨維,中央的事實(shí)表中存有度量和各個基本維的碼值.星型模式是用來處理聚合運(yùn)算的,該模式能很好地用于OLAP,但它本身不帶數(shù)據(jù)挖掘功能,不能用于OLAM,因此需要將星型模式作相應(yīng)擴(kuò)展.

  在對影響域進(jìn)行分析的過程中,通常將分析焦點(diǎn)聚焦在星型模式中的維表上(如產(chǎn)品或商店,如圖1所示).由于在分析中要用附加的聚合或選擇的數(shù)據(jù)項(xiàng)以豐富維表內(nèi)容,因此對于每個庫表來說,需要比星型模式存儲更多的數(shù)據(jù).分析的焦點(diǎn)在各個維表之間不斷轉(zhuǎn)換,例如從客戶維轉(zhuǎn)換至商店維再到產(chǎn)品維等等,可以看作是焦點(diǎn)在繞著星型模式旋轉(zhuǎn),因此,本文引入“旋轉(zhuǎn)模式”的概念,將OLAM的分析結(jié)構(gòu)命名為旋轉(zhuǎn)模式.圖2顯示出與圖1中星型模式所對應(yīng)的旋轉(zhuǎn)模式的例子.旋轉(zhuǎn)模式的中心存儲的是影響域的蘊(yùn)涵,外圍是各個維表的碼值以及聚焦度量和其它度量,四周呈輻射狀的是各個維表.

  在執(zhí)行影響域分析時,焦點(diǎn)沿著不同的基本維(或類)旋轉(zhuǎn),在維和度量形成的廣義數(shù)據(jù)立方體空間上執(zhí)行蘊(yùn)涵運(yùn)算對應(yīng)于圖1的旋轉(zhuǎn)模式的例子如圖3所示,旋轉(zhuǎn)模式中的庫表具有五個主要部分:(1)中的庫表具有五個主要部分聚焦維;(2)聚焦度量;(3)內(nèi)部屬性;(4)外部屬性;(5)非聚焦度量.聚焦維代表當(dāng)前分析焦點(diǎn)所在的基本維,如圖2所示的客戶維;聚焦度量代表用戶關(guān)心的度量,如利潤;內(nèi)部屬性是聚焦維中的屬性,如客戶年齡等;外部屬性是非聚焦維中的屬性,如某客戶最喜愛的產(chǎn)品顏色等;非聚焦度量是用于輔助決策的度量,如某客戶平均一次購買的商品的數(shù)目.由此可以看出影響域中的存儲模式與OLAP是不同的.

  2 實(shí)現(xiàn)OLAM機(jī)制的討論

  OLAM機(jī)制具有交互的特性,而且求蘊(yùn)涵函數(shù)的計算代價比較昂貴,因此在大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中實(shí)現(xiàn)OLAM機(jī)制的關(guān)鍵是解決快速響應(yīng)和有效實(shí)現(xiàn)的問題.必須考慮如下因素:

  2.1 快速響應(yīng)和高性能挖掘

  OLAM若想獲得快速響應(yīng)和高的性能,會比OLAP困難,因?yàn)閿?shù)據(jù)挖掘的計算代價通常比OLAP昂貴.快速響應(yīng)對于交互式挖掘是致關(guān)重要的,有時為了得到快速響應(yīng)甚至可以犧牲精度,因?yàn)榻换ナ酵诰蚰芤徊讲揭龑?dǎo)挖掘者聚焦在搜索空間并查找越來越多重要的模式.一旦用戶能限定小的搜索空間,就可調(diào)用更高級的而速度較慢的挖掘算法進(jìn)行細(xì)致分析.可考慮采用逐漸精化數(shù)據(jù)挖掘質(zhì)量的OLAM方法:首先在大數(shù)據(jù)集上用快速挖掘算法標(biāo)識出感興趣的模式/區(qū)域,然后用代價較高但較精確的算法進(jìn)行詳細(xì)分析.

  2.2 基于數(shù)據(jù)立方體的挖掘方法

  基于數(shù)據(jù)立方體的挖掘方法應(yīng)該是OLAM機(jī)制的核心.基于立方體的數(shù)據(jù)挖掘已經(jīng)有很多研究,包括概念描述、分類、關(guān)聯(lián)、預(yù)測、聚類等.基于立方體的挖掘繼承了關(guān)系型或事務(wù)型數(shù)據(jù)挖掘方法的思想,并具有許多特性.在基于立方體的有效挖掘算法領(lǐng)域需要更多的研究.高性能數(shù)據(jù)立方體技術(shù)對OLAM很重要.由于一個挖掘系統(tǒng)需要計算大量維之間的關(guān)系或詳細(xì)細(xì)節(jié),這樣的數(shù)據(jù)不可能都預(yù)先實(shí)體化,有必要聯(lián)機(jī)動態(tài)計算數(shù)據(jù)立方體的一部分.另外,多特性數(shù)據(jù)立方體的有效計算,以及支持具有復(fù)雜維和度量的非傳統(tǒng)的數(shù)據(jù)立方體,對有效地數(shù)據(jù)挖掘都很重要.因此,需進(jìn)一步開發(fā)數(shù)據(jù)立方體技術(shù).

  2.3 選擇或添加數(shù)據(jù)挖掘算法

  關(guān)系型查詢處理能用不同的處理途徑對同一查詢生成相同的答案,但是采用不同的數(shù)據(jù)挖掘算法可能會生成顯著不同的挖掘結(jié)果.因此,提供多種可選的數(shù)據(jù)挖掘算法很重要.另外,用戶也許想自己開發(fā)一個算法,如果提供標(biāo)準(zhǔn)開放的API,而且OLAM系統(tǒng)經(jīng)過很好地模塊化,用戶就有可能增加或修改數(shù)據(jù)挖掘算法.用戶定義的數(shù)據(jù)挖掘算法可以較好地利用一些開發(fā)良好的系統(tǒng)構(gòu)件以及知識可視化工具,并與已有的數(shù)據(jù)挖掘功能合成.因存在有多個數(shù)據(jù)挖掘功能,如何在某一具體應(yīng)用中選定合適的數(shù)據(jù)挖掘功能是一個問題,必須熟悉應(yīng)用問題、數(shù)據(jù)特征以及數(shù)據(jù)挖掘功能的作用,有時需要執(zhí)行交互探索式分析來選擇合適的功能.因此,建造探索式分析工具以及構(gòu)建面向應(yīng)用的語義層是兩個重要的解決方案.OLAM提供探索式分析工具,進(jìn)一步的研究應(yīng)該放在為具體應(yīng)用自動選擇數(shù)據(jù)挖掘功能上.

  2.4 在多個數(shù)據(jù)挖掘功能之間交互

  OLAM的優(yōu)勢不僅僅在于選擇一系列的數(shù)據(jù)挖掘功能,也在于在多個數(shù)據(jù)挖掘和OLAP功能之間交互.例如首先切割立方體的一部分,基于一指定的類屬性將該部分分類并查找關(guān)聯(lián)規(guī)則,然后下挖在更細(xì)2.5 可視化工具

  為了有效地顯示OLAP挖掘結(jié)果并與挖掘處理交互,開發(fā)多種知識和數(shù)據(jù)可視化工具很重要.圖表、曲線、決策樹、規(guī)則圖、立方體視圖、boxplot圖等是描述數(shù)據(jù)挖掘結(jié)果的有效工具,幫助用戶監(jiān)測數(shù)據(jù)挖掘的過程并與挖掘過程交互.

  2.6 可擴(kuò)展性

  OLAM系統(tǒng)與用戶及知識可視化軟件包在頂端通訊,與數(shù)據(jù)立方體在底端通訊.它應(yīng)該高度模塊化,并具有可擴(kuò)展性,因?yàn)樗赡軙c多個子系統(tǒng)合成并以多種方式擴(kuò)展.應(yīng)該擴(kuò)展OLAP挖掘技術(shù)至高級的和/或特殊用途的數(shù)據(jù)庫系統(tǒng),包括擴(kuò)展的關(guān)系型、面向?qū)ο蟮?、文本、空間、時間、多媒體和異種數(shù)據(jù)庫以及Internet信息系統(tǒng).對復(fù)雜類型的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的OLAP挖掘也是一重要的研究方向.

  2.7 做書簽和回溯技術(shù)

  OLAM借助于數(shù)據(jù)立方體導(dǎo)航,提供給用戶充分的自由,運(yùn)用任一數(shù)據(jù)挖掘算法序列來探索和發(fā)現(xiàn)知識.當(dāng)從一個數(shù)據(jù)挖掘狀態(tài)轉(zhuǎn)換至另一狀態(tài)時常??捎泻芏噙x擇.可做個書簽,如果發(fā)現(xiàn)一個路徑無意義,就回到原先的狀態(tài)并探索其它的方法.這種做標(biāo)記和回溯機(jī)制防止用戶“迷失在OLAM空間”中.

  3 結(jié)論

  利用OLAM模型沿著多個維進(jìn)行挖掘,觀察沿著這些維的模式,進(jìn)行合并,并以智能的方式與用戶進(jìn)行交互,可以在多維數(shù)據(jù)庫的不同的部位和不同的抽象級別交互地執(zhí)行挖掘.它有如下優(yōu)點(diǎn):

  (1)便于交互式探索性的數(shù)據(jù)分析.有效的數(shù)據(jù)挖掘需要探索性的數(shù)據(jù)分析功能〔6〕.用戶常希望靈活地遍歷數(shù)據(jù)庫,選擇任一部分的相關(guān)數(shù)據(jù),在不同的抽象級別上分析,并以不同的形式表示知識/結(jié)果.OLAM便于對不同的數(shù)據(jù)子集在不同抽象級別上進(jìn)行數(shù)據(jù)挖掘,這連同數(shù)據(jù)/知識可視化工具將大大加強(qiáng)探索性數(shù)據(jù)挖掘的能力和靈活性.

  (2)聯(lián)機(jī)選擇數(shù)據(jù)挖掘功能.事先預(yù)測挖掘何種類型的知識是困難的,對于用戶來講,常常不知道想挖掘什么樣的知識.通過OLAM模型將OLAP與多個數(shù)據(jù)挖掘功能結(jié)合,用戶可以靈活選擇所需的數(shù)據(jù)挖掘功能,并動態(tài)交換數(shù)據(jù)挖掘任務(wù).本文所提出的OLAM模型的理論方法、基本權(quán)標(biāo)和數(shù)據(jù)結(jié)構(gòu)將數(shù)據(jù)挖掘和OLAP技術(shù)結(jié)合在一個統(tǒng)一的框架之中,大大加強(qiáng)了決策分析的功能和靈活性.該模型有助于在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫中交互式地挖掘多層次的知識,是一個很有前景的方向.

  參考文獻(xiàn):

  1 E.F.Codd, S.B.Codd, C.T.Salley. Beyond decision support.〔J〕Computerworld, 27(30), July 1993

  2 Usama M Fayyad, www.51lunwen.com/database/ Gregory Piatetsky-Shapiro et al. Advances inknowledge discovery and data mining.〔M〕California: AAAI/MIT Press, 1996

  3 J.W.Han. Towards on-line analytical mining in large databases.〔R〕ACM SIGMOD Record, 1998. 27:97~107

  4 J. W. Han, S. Chee, and J. Y. Chiang. Issues for on-lineanalytical mining of data warehouses.〔C〕Proc. of 1998SIGMOD’96 Workshop on Research Issues on Data Mining andKnowledge Discovery (DMKD’98), Seattle, Washington, June1998

  5 J.W.Han. OLAP Mining: An Integration of OLAP with DataMining.〔C〕Proc. 1997 IFIP Conference on Data Semantics (DS-7), Leysin, Switzerland, Nov. 1997. 1~11

  6 M.S.Chen, J.W.Han, and P.S.Yu. Data mining: an overviewfrom a database perspective.〔J〕IEEE Transactions onKnowledge and Data Engineering, 1996. 8(6): 866~883

OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建論文

數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。以下是學(xué)習(xí)啦小
推薦度:
點(diǎn)擊下載文檔文檔為doc格式

精選文章

359066