論數(shù)據(jù)可用性的評(píng)估方法
論數(shù)據(jù)可用性的評(píng)估方法
隨著大數(shù)據(jù)時(shí)代的來臨,數(shù)據(jù)集合中劣質(zhì)數(shù)據(jù)也隨之大量產(chǎn)生,導(dǎo)致信息數(shù)據(jù)整體質(zhì)量下降,數(shù)據(jù)的有效使用受到了極大限制。為了更加有效發(fā)揮各行各業(yè)大數(shù)據(jù)的作用,開展數(shù)據(jù)可用性研究具有較大的戰(zhàn)略意義。
1 數(shù)據(jù)可用性定義
研究者們普遍認(rèn)為,數(shù)據(jù)的可用性可以從數(shù)據(jù)的一致性、準(zhǔn)確性、完整性、時(shí)效性及實(shí)體同一性五個(gè)方面進(jìn)行考察,其具體定義如下:
?、贁?shù)據(jù)的一致性:指數(shù)據(jù)信息系統(tǒng)中各相關(guān)數(shù)據(jù)信息之間相容、不產(chǎn)生矛盾。
?、跀?shù)據(jù)的準(zhǔn)確性:指數(shù)據(jù)信息系統(tǒng)中每個(gè)數(shù)據(jù)表示現(xiàn)實(shí)物體的精準(zhǔn)程度。人們對(duì)數(shù)據(jù)進(jìn)行操作的各個(gè)環(huán)節(jié)都可能影響數(shù)據(jù)準(zhǔn)確性。
?、蹟?shù)據(jù)的完整性:指數(shù)據(jù)集合包含的數(shù)據(jù)完全滿足對(duì)數(shù)據(jù)進(jìn)行各項(xiàng)操作的要求。
?、軘?shù)據(jù)的時(shí)效性:是指在不同需求場(chǎng)景下數(shù)據(jù)的及時(shí)性和有效性。對(duì)應(yīng)用系統(tǒng)而言,往往對(duì)數(shù)據(jù)時(shí)效性要求較高,過時(shí)的數(shù)據(jù)即使分析出來了也不會(huì)對(duì)實(shí)際應(yīng)用產(chǎn)生有價(jià)值的影響。
?、輰?shí)體的同一性:指同一實(shí)體在各種數(shù)據(jù)源中的描述統(tǒng)一。
一個(gè)數(shù)據(jù)集合,滿足以上五個(gè)性質(zhì)的程度稱為該數(shù)據(jù)集合的可用性。
2 評(píng)估方法分析
對(duì)于數(shù)據(jù)可用性評(píng)估,國(guó)內(nèi)外研究人員也進(jìn)行了許多工作。以下從數(shù)據(jù)的一致性、精確性、完整性、時(shí)效性、實(shí)體同一性五個(gè)方面進(jìn)行介紹和分析。
2.1 基于一致性的方法
文獻(xiàn)[1]針對(duì)異地備份系統(tǒng)中數(shù)據(jù)持續(xù)變化的情況,設(shè)計(jì)并實(shí)現(xiàn)了一種基于累積摘要值的一致性檢測(cè)方法。該方法解決了傳統(tǒng)一致性檢測(cè)需要中斷備份任務(wù)的問題,保證了備份任務(wù)的連續(xù)性,并且能夠迅速檢測(cè)本地服務(wù)器和遠(yuǎn)程備份中心數(shù)據(jù)的一致性,提高了一致性檢測(cè)的效率。
文獻(xiàn)[2]從已有的一致性維護(hù)方法出發(fā),針對(duì)海量數(shù)據(jù)多副本之間一致性維護(hù),從一致性維護(hù)過程中所涉及的更新發(fā)布、更新傳播方式、更新傳播內(nèi)容、更新沖突解決等幾個(gè)方面進(jìn)行了分析,提出了相應(yīng)的解決辦法。
文獻(xiàn)[3]針對(duì)P2P分布存儲(chǔ)系統(tǒng)中大型數(shù)據(jù)對(duì)象面臨的數(shù)據(jù)一致性問題,提出了數(shù)據(jù)一致性維護(hù)方法PLCP。該方法從提高更新傳播速度和減少日志空間開銷的角度進(jìn)行了數(shù)據(jù)優(yōu)化。同時(shí)針對(duì)數(shù)據(jù)更新的問題和關(guān)鍵屬性更新的問題,提出數(shù)據(jù)一致性維護(hù)方法DACP和KACP。
文獻(xiàn)[5]從無(wú)線傳感網(wǎng)絡(luò)數(shù)據(jù)安全的角度,結(jié)合一些廉價(jià)的保護(hù)技術(shù),提出了利用跨層一致性評(píng)估信息整體質(zhì)量的方法。
基于數(shù)據(jù)一致性的方法,主要體現(xiàn)在集中存儲(chǔ)方面,對(duì)于分布式和非關(guān)系數(shù)據(jù)方面研究還較少,適用于海量數(shù)據(jù)的一致性評(píng)估方法有待進(jìn)一步探索。
2.2 基于精確性的方法
數(shù)據(jù)精確性方面的研究結(jié)果比較少見,文獻(xiàn)[6]從精確度低的角度,提出了對(duì)應(yīng)的精確性評(píng)估算法。該算法考慮了一種基于可能世界語(yǔ)義的描述方法。目前的研究結(jié)果顯示,數(shù)據(jù)精確性的評(píng)估方法還有待研究者們深入探究。
2.3 基于完整性的方法
針對(duì)海量關(guān)系數(shù)據(jù)中普遍存在的數(shù)據(jù)不完整現(xiàn)象,劉永楠等研究了關(guān)系數(shù)據(jù)完整性度量問題。針對(duì)數(shù)據(jù)的完整性計(jì)算問題,提出了數(shù)據(jù)完整性計(jì)算模型,以及精確算法和基于均勻抽樣的近似算法。理論分析證明了近似算法可以達(dá)到任意的精度要求,可以高效地對(duì)數(shù)據(jù)完整性進(jìn)行計(jì)算,通過在DBLP數(shù)據(jù)上的實(shí)驗(yàn)驗(yàn)證了算法的有效性和高效性。
在具體應(yīng)用領(lǐng)域,張少敏等利用IEC61970對(duì)智能電網(wǎng)進(jìn)行信息集成,然后根據(jù)完整性定義,對(duì)智能電網(wǎng)數(shù)據(jù)進(jìn)行自動(dòng)機(jī)建模,給出了一種無(wú)需對(duì)數(shù)據(jù)進(jìn)行直接操作的數(shù)據(jù)完整性定量評(píng)估模型。
Barcelo P等將傳統(tǒng)的完整性理論擴(kuò)展到XML數(shù)據(jù)上,討論了不完整XML數(shù)據(jù)的表示問題。
另外,針對(duì)云存儲(chǔ)服務(wù)中數(shù)據(jù)的完整性問題,一些研究者提出了PDP 和POR。這兩種方案都采用了概率性證明思路,即存儲(chǔ)服務(wù)提供商向數(shù)據(jù)擁有者證明其完整的持有數(shù)據(jù)擁有者存儲(chǔ)的數(shù)據(jù)。
基于數(shù)據(jù)完整性評(píng)估方面的結(jié)論還較少,特別是具有普遍適用價(jià)值的方法,還有待進(jìn)一步研究。
2.4 基于時(shí)效性的方法
文獻(xiàn)[7]針對(duì)歷史評(píng)價(jià)數(shù)據(jù)時(shí)效性會(huì)影響評(píng)價(jià)計(jì)算準(zhǔn)確性的問題,引入了評(píng)價(jià)數(shù)據(jù)的時(shí)間屬性,構(gòu)造了評(píng)價(jià)數(shù)據(jù)衰減因子,減小了時(shí)效性對(duì)于評(píng)價(jià)計(jì)算準(zhǔn)確性的影響。
文獻(xiàn)[8]研究了包含冗余記錄的集合在給定時(shí)效約束下的時(shí)效性判定問題,并首次提出了時(shí)效性判定問題的求解算法.
在建筑能耗領(lǐng)域,文獻(xiàn)[9]通過對(duì)幾類典型公共建筑能耗數(shù)據(jù)的統(tǒng)計(jì)分析對(duì)比,提出了采用近1年的能耗數(shù)據(jù)作為統(tǒng)計(jì)樣本的建議。
基于時(shí)效性方面的研究非常匱乏,已有的少量研究結(jié)論都主要針對(duì)一些特殊應(yīng)用,還需深入系統(tǒng)的研究。
2.5 基于實(shí)體同一性的方法
實(shí)體同一性是數(shù)據(jù)可用性研究較多的一個(gè)方面,實(shí)體同一性研究主要涉及兩類方法:第一類是從語(yǔ)義規(guī)則的角度進(jìn)行同一性研究,這類方法主要通過經(jīng)驗(yàn)知識(shí)來描述實(shí)體的同一性問題;第二類是從相似性的角度進(jìn)行同一性研究,該類方法主要采用相似度函數(shù)來對(duì)實(shí)體同一性進(jìn)行判定。
針對(duì)實(shí)體同一性方面的相關(guān)技術(shù),包括實(shí)體識(shí)別的效率問題、識(shí)別的增量計(jì)算、半結(jié)構(gòu)化數(shù)據(jù)上的實(shí)體識(shí)別等,文獻(xiàn)[4] 展開了相對(duì)完整的討論。
對(duì)于實(shí)體統(tǒng)一性的評(píng)估方法大多針對(duì)關(guān)系數(shù)據(jù),針對(duì)復(fù)雜結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非機(jī)構(gòu)化數(shù)據(jù)方面的研究還很少。
3 結(jié)束語(yǔ)
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)量急劇增長(zhǎng),數(shù)據(jù)的可用性問題將嚴(yán)重影響基于數(shù)據(jù)的知識(shí)和決策。確保大數(shù)據(jù)的可用性是進(jìn)行大數(shù)據(jù)分析、處理的關(guān)鍵基礎(chǔ),將直接關(guān)系到大數(shù)據(jù)價(jià)值的體現(xiàn)。本文針對(duì)數(shù)據(jù)質(zhì)量問題,從數(shù)據(jù)可用性的角度,介紹并分析了目前國(guó)內(nèi)外基于單個(gè)屬性的數(shù)據(jù)質(zhì)量評(píng)估方法,將有助于促進(jìn)大數(shù)據(jù)可用性的研究。