六月丁香五月婷婷,丁香五月婷婷网,欧美激情网站,日本护士xxxx,禁止18岁天天操夜夜操,18岁禁止1000免费,国产福利无码一区色费

學(xué)習(xí)啦 > 知識大全 > 知識百科 > 百科知識 > 什么是知識挖掘

什么是知識挖掘

時間: 謝君787 分享

什么是知識挖掘

  知識挖掘源于全球范圍內(nèi)數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇增加,人們的需求已經(jīng)不只是簡單的查詢和維護,而是希望能夠?qū)@些數(shù)據(jù)進行較高層次的處理和分析以得到關(guān)于數(shù)據(jù)總體特征和對發(fā)展趨勢的預(yù)測。以下是由學(xué)習(xí)啦小編整理關(guān)于什么是知識挖掘的內(nèi)容,希望大家喜歡!

  知識挖掘的簡介

  數(shù)據(jù)是指有關(guān)事實的集合,記錄和事物有關(guān)的原始信息。

  模式是一個用語言來表示的一個表達式,它可用來描述數(shù)據(jù)集的某個子集,所說的知識,是對數(shù)據(jù)包涵的信息更抽象的描述。對大量數(shù)據(jù)進行分析的過程,包括數(shù)據(jù)準(zhǔn)備、模式搜索、知識評價,以及反復(fù)的修改求精;該過程要求是非平凡的,意思是要有一定程度的智能性、自動性(僅僅給出所有數(shù)據(jù)的總和不能算作是一個發(fā)現(xiàn)過程)。有效性是指發(fā)現(xiàn)的模式對于新的數(shù)據(jù)仍保持有一定的可信度。新穎性要求發(fā)現(xiàn)的模式是新的。潛在有用性是指發(fā)現(xiàn)的知識將來有實際效用,如用于決策支持系統(tǒng)里可提高經(jīng)濟效益。最終可理解性要求發(fā)現(xiàn)的模式能被用戶理解,它主要是體現(xiàn)在簡潔性上。有效性、新穎性、潛在有用性和最終可理解性綜合在一起可稱之為興趣性。

  由于知識挖掘是一門新興學(xué)科,況且它又是一門受到來自各種不同領(lǐng)域的研究者關(guān)注的邊緣學(xué)科,因此產(chǎn)生很多不同的術(shù)語,除了稱為“知識挖掘”外,主要還有如下若干種稱法:“數(shù)據(jù)發(fā)現(xiàn)”、“數(shù)據(jù)開采”、“知識抽取”、“信息發(fā)現(xiàn)”、“知識發(fā)現(xiàn)”、“智能數(shù)據(jù)分析”、“探索式數(shù)據(jù)分析”、“信息收獲”和“數(shù)據(jù)考古”等等。“知識挖掘”被許多研究者看作僅是數(shù)據(jù)發(fā)現(xiàn)的一個步驟。相對來講,數(shù)據(jù)開采主要流行于統(tǒng)計界、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)(MIS)界;而數(shù)據(jù)發(fā)現(xiàn)則主要流行于人工智能和機器學(xué)習(xí)界。

  知識挖掘已被越來越多的領(lǐng)域所采用,并取得了較好效果。這些領(lǐng)域有科學(xué)研究、市場營銷、金融投資、欺詐甄別、產(chǎn)品制造、通信網(wǎng)絡(luò)管理等。由加州理工學(xué)院噴氣推進實驗室與天文科學(xué)家合作開發(fā)的SKICAT(SkyImageCatalogingandAnalysisTool)是第一個獲得相當(dāng)成功的知識挖掘應(yīng)用,已經(jīng)幫助科學(xué)家發(fā)現(xiàn)了16顆極其遙遠的類星體。

  雖然知識挖掘已經(jīng)受到許多關(guān)注并取得了廣泛應(yīng)用,但它仍處于發(fā)展的早期,還有很多研究難題和面臨的挑戰(zhàn),如數(shù)據(jù)的巨量性、動態(tài)性、噪聲性、缺值和稀疏性,發(fā)現(xiàn)模式的可理解性、興趣或價值性,應(yīng)用系統(tǒng)的集成,用戶的交互操作,知識的更新管理,復(fù)雜數(shù)據(jù)庫的處理等等。

  知識挖掘的過程

  知識挖掘(KDD)是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程;數(shù)據(jù)開采(DM)是KDD過程中的一個特定步驟,它用專門算法從數(shù)據(jù)中抽取模式(patterns)。1996年,F(xiàn)ayyad、PiatetskyShapiror和Smyth將KDD過程定義為:從數(shù)據(jù)中鑒別出有效模式的非平凡過程,該模式是新的、可能有用的和最終可理解的。

  知識挖掘算法的好壞將直接影響到所發(fā)現(xiàn)知識的好壞。大多數(shù)的研究都集中在知識挖掘算法和應(yīng)用上。需要說明的是,有的學(xué)者認為,數(shù)據(jù)開采和知識發(fā)現(xiàn)含義相同,表示成KDD/DM.它是一個反復(fù)的過程,通常包含多個相互聯(lián)系的步驟:預(yù)處理、提出假設(shè)、選取算法、提取規(guī)則、評價和解釋結(jié)果、將模式構(gòu)成知識,最后是應(yīng)用。在實際,人們往往不嚴(yán)格區(qū)分知識挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn),把兩者混淆使用。一般在科研領(lǐng)域中稱為KDD,而在工程領(lǐng)域則稱為知識挖掘。

  KDD過程是多個步驟相互連接、反復(fù)進行人機交互的過程。具體包括:

  學(xué)習(xí)某個應(yīng)用領(lǐng)域

  包括應(yīng)用中的預(yù)先知識和目標(biāo)。

  建立目標(biāo)數(shù)據(jù)集

  選擇一個數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。

  數(shù)據(jù)預(yù)處理

  去除噪聲或無關(guān)數(shù)據(jù),去除空白數(shù)據(jù)域,考慮時間順序和數(shù)據(jù)變化等。

  數(shù)據(jù)轉(zhuǎn)換

  找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式。

  選定知識挖掘功能

  決定知識挖掘的目的。

  選定知識挖掘算法

  用KDD過程中的準(zhǔn)則,選擇某個特定知識挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數(shù)據(jù)中的模式。

  知識挖掘

  搜索或產(chǎn)生一個特定的感興趣的模式或一個特定的數(shù)據(jù)集。⑧解釋:解釋某個發(fā)現(xiàn)的模式,去掉多余的不切題意的模式,轉(zhuǎn)換某個有用的模式,以使用戶明白。

  發(fā)現(xiàn)知識

  把這些知識結(jié)合到運行系統(tǒng)中,獲得這些知識的作用或證明這些知識。用預(yù)先、可信的知識檢查和解決知識中可能的矛盾。
看過“什么是知識挖掘“的人還看了:

1.OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建論文

2.白領(lǐng)創(chuàng)業(yè)商機

3.高考生物復(fù)習(xí)計劃范文3篇

4.郵政局就業(yè)培訓(xùn)心得3篇

5.淺談高等教育國際化背景下跨文化交際人才的培養(yǎng)

1188445