六月丁香五月婷婷,丁香五月婷婷网,欧美激情网站,日本护士xxxx,禁止18岁天天操夜夜操,18岁禁止1000免费,国产福利无码一区色费

學習啦 > 論文大全 > 畢業(yè)論文 > 管理學論文 > 檔案管理 >

淺析基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究

時間: 許惠瑋1 分享
 論文關鍵詞:數(shù)字化 圖書管理 檔案化
  論文摘要:隨著社會主義現(xiàn)代化的發(fā)展,計算機技術的進步,信息技術在社會發(fā)展的各個領域都扮演著極其重要的角色。信息化建設更是被我國列為經濟社會發(fā)展的首要內容。網頁檔案化管理包括文檔、文字翻譯轉換、圖片資料、聲像資料、多媒體遠程會議等。尤其是大學檔案館更側重教學與科研,網頁檔案化管理是必然的趨勢。
  在信息化發(fā)展的今天,圖書館,特別是大學圖書館不僅要對信息進行簡單的數(shù)字轉換和管理,更要對新興事物網絡進行檔案化管理和歸檔,包括文檔、文字翻譯轉換、圖片資料、聲像資料、多媒體遠程會議等。所以網絡檔案化管理,成為當今圖書管理的必然趨勢,這就必須對檔案化管理的技術和法律相關問題進行深入闡述和探討。
  所謂數(shù)據(jù)挖掘(Data Mining),就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。這些數(shù)據(jù)可以是結構化的,如關系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結構化的,如文本,圖形,圖像數(shù)據(jù),甚至是分布在網絡上的異構型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以進行數(shù)據(jù)自身的維護。數(shù)據(jù)挖掘借助了多年來數(shù)理統(tǒng)計技術和人工智能以及知識工程等領域的研究成果構建自己的理論體系,是涉及數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、機械學、人工神經網絡、可視化、并行計算等的交叉學科,是目前國際上數(shù)據(jù)庫和決策支持領域的最前沿的研究方向之一。
  一、數(shù)據(jù)挖掘的功能
  數(shù)據(jù)挖掘通過預測未來趨勢及行為,做出預測性的、基于知識的決策。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,按其功能可分為以下幾類。
  1、關聯(lián)分析
  關聯(lián)分析能尋找到數(shù)據(jù)庫中大量數(shù)據(jù)的相關聯(lián)系,常用的一種技術為關聯(lián)規(guī)則和序列模式。關聯(lián)規(guī)則是發(fā)現(xiàn)一個事物與其他事物間的相互關聯(lián)性或相互依賴性。
  2、聚類
  輸入的數(shù)據(jù)并無任何類型標記,聚類就是按一定的規(guī)則將數(shù)據(jù)劃分為合理的集合,即將對象分組為多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學。
  3、自動預測趨勢和行為
  數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中進行分類和預測,尋找預測性信息,自動地提出描述重要數(shù)據(jù)類的模型或預測未來的數(shù)據(jù)趨勢,這樣以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結論。
  4、概念描述
  對于數(shù)據(jù)庫中龐雜的數(shù)據(jù),人們期望以簡潔的描述形式來描述匯集的數(shù)據(jù)集。概念描述就是對某類對象的內涵進行描述并概括出這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。
  5、偏差檢測
  數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是尋找觀測結果與參照值之間有意義的差別。這常用于金融銀行業(yè)中檢測欺詐行為,或市場分析中分析特殊消費者的消費習慣。
44471