大數(shù)據(jù)的互聯(lián)網(wǎng)思維
2009年聯(lián)合國制定了“數(shù)據(jù)脈動”計劃,2010年英國發(fā)起了“數(shù)據(jù)權(quán)”運動、2012年美國實施了“大數(shù)據(jù)”戰(zhàn)略,最近新加坡等提出“大數(shù)據(jù)治國”理念, “大數(shù)據(jù)”時代的序幕由此漸漸拉開。今年7月25日,國務(wù)院在聽取浪潮云計算、大數(shù)據(jù)產(chǎn)業(yè)發(fā)展匯報后指出,信息化正在全球快速發(fā)展,云計算、大數(shù)據(jù)是一個大潮流。作為繼物聯(lián)網(wǎng)、數(shù)字城市、智慧城市之后的又一個流行詞匯, “大數(shù)據(jù)”的究竟是什么?大數(shù)據(jù)時代下應(yīng)樹立怎樣的思維?大數(shù)據(jù)對國家治理現(xiàn)代化和反腐倡廉有什么作用?
一、大數(shù)據(jù)時代正悄然來臨
今年全國兩會時,“大數(shù)據(jù)” (Big data)第一次出現(xiàn)在政府工作報告中,這表明我國對大數(shù)據(jù)重要性的認(rèn)識上升到了國家層面。信息產(chǎn)業(yè)發(fā)達(dá)國家,如美、英、德、日等此前已將大數(shù)據(jù)作為國家核心競爭力提升為了國家戰(zhàn)略。數(shù)字主權(quán)將是繼邊防、海防、空防之后,又一個大國博弈的空間。
(一)大數(shù)據(jù)的定義和特征
大數(shù)據(jù)并非現(xiàn)在才出現(xiàn)。中國東漢時期人口已達(dá)6千多萬,這顯然是一個大數(shù)據(jù),但不是今天討論的大數(shù)據(jù)。維基百科對大數(shù)據(jù)的定義為:“大數(shù)據(jù)意指一個超大、難以用現(xiàn)有常規(guī)的數(shù)據(jù)庫管理技術(shù)和工具處理的數(shù)據(jù)集。”IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)報告對大數(shù)據(jù)的定義為:“大數(shù)據(jù)技術(shù)描述了一種新一代技術(shù)和構(gòu)架,用于以很經(jīng)濟(jì)的方式、以高速的捕獲、發(fā)現(xiàn)和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價值。”大數(shù)據(jù)研究的目的是將數(shù)據(jù)轉(zhuǎn)化為知識,探索數(shù)據(jù)的產(chǎn)生機(jī)制,進(jìn)行預(yù)測和政策制定。建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的核心,通過找出一個關(guān)聯(lián)物并監(jiān)控它,我們就能預(yù)測未來。
大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個V來總結(jié)(Volume、Variety、Value和Velocity),即體量大、多樣性、價值密度低和處理速度快。具體來講,一是數(shù)據(jù)體量巨大。數(shù)據(jù)信息計量的最小基本單位是字節(jié)(Byte) ,換言之, Byte是計算機(jī)信息技術(shù)用于計量存儲容量和傳輸容量的一種計量單位,一個字節(jié)等于8位二進(jìn)制數(shù),在UTF-8編碼中,一個英文字符等于一個字節(jié)。數(shù)據(jù)存儲是以“字節(jié)”(Byte)為單位,數(shù)據(jù)傳輸是以“位”(bit)為單位,一個位就代表一個0或1(即二進(jìn)制),每8個位(bit)組成一個字節(jié)(Byte)。8bit=1Byte,數(shù)據(jù)存儲是以10進(jìn)制表示,數(shù)據(jù)傳輸是以2進(jìn)制表示,所以1KB不等于1000B,而是1KB=1024B, K是千, M是兆 ,G是吉咖, T是太拉。按信息量從小到大的順序,單位分別是:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,除了1Byte=8bit而外,后續(xù)的計量單位均按照進(jìn)率1024(2的10次方)來計算。大數(shù)據(jù)的“大”沒有精確的定義,不同的時代對應(yīng)著不同的大數(shù)據(jù)規(guī)模,當(dāng)前大數(shù)據(jù)的數(shù)據(jù)規(guī)模在GB、TB、PB、EB、ZB這幾個規(guī)模尺度上。二是數(shù)據(jù)類型多樣?,F(xiàn)在的數(shù)據(jù)類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個性化數(shù)據(jù)占絕對多數(shù)。三是價值密度低。以視頻為例,一小時的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。大數(shù)據(jù)分析猶如“大海撈針”。四是處理速度快。數(shù)據(jù)處理遵循“1秒定律”,需從各種類型的數(shù)據(jù)中快速獲得高價值的信息。
(二)大數(shù)據(jù)的主要成因
大數(shù)據(jù)的背后推手有哪些?以下三大因素是大數(shù)據(jù)的主要成因:
第一,人類保持?jǐn)?shù)據(jù)的能力增強(qiáng)。
1965年,英特爾的創(chuàng)始人之一戈登·摩爾提出了著名的摩爾定律。該定律認(rèn)為,同一面積集成電路上可容納的晶體管數(shù)量,一到兩年將增加一倍。回顧半個多世紀(jì)的歷史,硬件技術(shù)的發(fā)展基本符合摩爾定律。以物理存儲器為例,其性能不斷上升,與此同時,價格不斷下降。1955年,IBM推出第一款商用硬盤存儲器,一兆字節(jié)的存儲量需要6000多美元。到2010年,一兆字節(jié)的存儲量僅僅需要0.005美分。半個多世紀(jì),存儲器的價格下降了1億倍!
預(yù)計2020年,1太硬盤的價格將下降到3美元,相當(dāng)于一杯咖啡的價格。一所普通大學(xué)的圖書館,其館藏量大約就一兩個太。也就是說,到2020年,只需要花上一杯咖啡的錢,就可以把一個圖書館的全部信息拷進(jìn)一個小小的硬盤。正是因為存儲器的價格在半個世紀(jì)之內(nèi)經(jīng)歷了空前絕后的下降,人類才可能以非常低廉的成本保存海量的數(shù)據(jù),這為大數(shù)據(jù)時代的到來鋪平了硬件道路,打下了堅實的物質(zhì)基礎(chǔ)。
第二,人類生產(chǎn)數(shù)據(jù)的能力增強(qiáng)。
從2004年起,以臉譜網(wǎng)(Face book)、推特(Twitter)為代表的社交媒體相繼問世,拉開了互聯(lián)網(wǎng)的嶄新時代—2.0時代。社交媒體的問世,帶來以下三大變化:
一是社交媒體把交流和協(xié)同的功能推到了一個登峰造極的高度。在此之前,互聯(lián)網(wǎng)的主要作用是信息的傳播和分享,其最主要的組織形式是建立網(wǎng)站,但網(wǎng)站是靜態(tài)的。進(jìn)入Web2.0時代之后,互聯(lián)網(wǎng)開始成為人們實時互動、交流協(xié)同的載體。2011年8月23日,美國弗吉尼亞州發(fā)生5.9級地震,紐約市居民首先在推特上看到這個消息,幾秒鐘之后,人們才感覺到地震波從震中傳過來的震感。社交媒體把人類信息傳播的速度,帶到了比地震波還快的時代!
二是社交媒體推動數(shù)據(jù)總量驟然增加。由于社交媒體的橫空出世,人類自己開始在互聯(lián)網(wǎng)上生產(chǎn)數(shù)據(jù),例如發(fā)推特、微博和微信,記錄各自的活動和行為,全世界的網(wǎng)民都是數(shù)據(jù)的生產(chǎn)者,每個網(wǎng)民都猶如一個信息系統(tǒng)、一個傳感器,不斷地制造數(shù)據(jù),這引發(fā)了人類歷史上迄今為止最龐大的數(shù)據(jù)爆炸。2012年,喬治敦大學(xué)的教授李塔魯考察了推特上產(chǎn)生的數(shù)據(jù)量,他做出估算說,過去50年,《紐約時報》總共產(chǎn)生了30億個單詞的信息量,現(xiàn)在僅僅一天,推特上就產(chǎn)生了80億個單詞的信息量。也就是說,如今一天產(chǎn)生的數(shù)據(jù)總量相當(dāng)于《紐約時報》100多年產(chǎn)生的數(shù)據(jù)總量。
數(shù)據(jù)量的增長到現(xiàn)在,已經(jīng)不是以我們所熟知的多少G和多少T來描述了,而是以P(1千T),E(1百萬T)或Z(10億T)為計量單位。百度對此給予了更形象的描述。僅其新首頁導(dǎo)航每天就要從超過1.5PB的數(shù)據(jù)中進(jìn)行挖掘,這些數(shù)據(jù)如果打印出來將超過5千億張A4紙,摞起來會超過4萬公里高,接近地球同步衛(wèi)星軌道長度,平鋪可以鋪滿海南島。而2020年新增的數(shù)字信息將是2009年的近45倍。如今,只需要兩天就能創(chuàng)造出自文明誕生以來到2003年所產(chǎn)生的數(shù)據(jù)總量。
三是社交媒體使人類的數(shù)據(jù)世界更為復(fù)雜。數(shù)據(jù)包含兩類數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。在大家發(fā)的微博中,你的帶圖片、他的帶視頻,大小、結(jié)構(gòu)完全不一樣。因為沒有嚴(yán)整的結(jié)構(gòu),在社交媒體上產(chǎn)生的數(shù)據(jù),也被稱為非結(jié)構(gòu)化數(shù)據(jù)。目前全世界的數(shù)據(jù)大約75%都是非結(jié)構(gòu)化數(shù)據(jù)。這部分?jǐn)?shù)據(jù)的處理,遠(yuǎn)比結(jié)構(gòu)嚴(yán)整的數(shù)據(jù)困難。
第三,人類使用數(shù)據(jù)的能力增強(qiáng)。
大數(shù)據(jù)之大,不僅在于其大容量,更在于其大價值。最根本的原因,是人類使用數(shù)據(jù)的能力取得了重大突破和進(jìn)展。
這種突破集中表現(xiàn)在數(shù)據(jù)挖掘上。數(shù)據(jù)挖掘是指通過特定的算法對大量的數(shù)據(jù)進(jìn)行自動分析,從而揭示數(shù)據(jù)當(dāng)中隱藏的規(guī)律和趨勢,即在大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)新知識,為決策者提供參考。數(shù)據(jù)挖掘進(jìn)步的根本原因是人類能夠不斷設(shè)計出更強(qiáng)大的模式識別算法。正是通過數(shù)據(jù)挖掘,各大商家譜寫了不少點“數(shù)”成金的傳奇故事。例如沃爾瑪通過捆綁“啤酒和尿布”提高銷量。阿里巴巴等憑借長期以來積累的用戶資金流水記錄,涉足金融領(lǐng)域,在幾分鐘之內(nèi)就能判斷用戶的信用資質(zhì),決定是否為其發(fā)放貸款。
2014年1月,美國的電子零售巨頭亞馬遜宣布了一項新的專利:“預(yù)判發(fā)貨”。即在網(wǎng)購時,顧客還沒有下單,亞馬遜就將包裹寄出。這種顧客未動、包裹先行的做法,核心技術(shù)還是數(shù)據(jù)挖掘。發(fā)貨的根據(jù)是顧客以前的消費記錄、搜索記錄以及顧客的心愿,甚至包括用戶的鼠標(biāo)在某個商品頁面上停留的時間。微軟紐約研究院經(jīng)濟(jì)學(xué)家大衛(wèi)·羅斯柴爾德利用大數(shù)據(jù)準(zhǔn)確預(yù)測了2014年第86屆奧斯卡24個獎項中的21個獎項。 2012年,他正確預(yù)測了美國51個行政區(qū)中50個總統(tǒng)大選的結(jié)果……結(jié)果就在大數(shù)據(jù)中,驚喜已死。
(三)大數(shù)據(jù)的應(yīng)用
主要有以下四個方面:
第一,對大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點。
移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。云計算為這些海量、多樣化的大數(shù)據(jù)提供存儲和運算平臺。通過對不同來源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到上述應(yīng)用中,將創(chuàng)造出巨大的經(jīng)濟(jì)和社會價值。
第二,大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎。
大數(shù)據(jù)時代,面向大數(shù)據(jù)市場的新技術(shù)、新產(chǎn)品、新服務(wù)、新業(yè)態(tài)會不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域,大數(shù)據(jù)將對芯片、存儲產(chǎn)業(yè)產(chǎn)生重要影響,將催生一體化數(shù)據(jù)存儲處理服務(wù)器、內(nèi)存計算等市場。在軟件與服務(wù)領(lǐng)域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的發(fā)展。
第三,大數(shù)據(jù)利用將成為提高核心競爭力的關(guān)鍵因素。
各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動” 轉(zhuǎn)變“數(shù)據(jù)驅(qū)動”。對大數(shù)據(jù)的分析可以使零售商實時掌握市場動態(tài)并迅速做出應(yīng)對;可以為商家制定更加精準(zhǔn)有效的營銷策略提供決策支持;可以幫助企業(yè)為消費者提供更加及時和個性化的服務(wù);在醫(yī)療領(lǐng)域,可提高診斷準(zhǔn)確性和藥物有效性;在公共事業(yè)領(lǐng)域,大數(shù)據(jù)在促進(jìn)經(jīng)濟(jì)發(fā)展、維護(hù)社會穩(wěn)定等方面的重要作用已開始得以發(fā)揮。
第四,大數(shù)據(jù)時代科學(xué)研究的方法手段將發(fā)生重大改變。
抽樣調(diào)查是社會科學(xué)的基本研究方法。但在大數(shù)據(jù)時代,不需要通過抽樣,而是通過實時監(jiān)測、跟蹤研究對象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù),進(jìn)行挖掘分析,揭示出規(guī)律性的東西,提出研究結(jié)論和對策。
(四)大數(shù)據(jù)與反腐倡廉
大數(shù)據(jù)反腐,是指利用強(qiáng)大的數(shù)據(jù)庫支持反腐的各個環(huán)節(jié),實現(xiàn)精準(zhǔn)預(yù)測和發(fā)布。具有以下重要價值:
第一,大數(shù)據(jù)為網(wǎng)絡(luò)反腐提供便利的“信息來源”。
中國工程院李國杰院士指出,“數(shù)據(jù)背后是網(wǎng)絡(luò),網(wǎng)絡(luò)背后是人,研究網(wǎng)絡(luò)數(shù)據(jù)實際上是研究人組成的社會網(wǎng)絡(luò)”。大數(shù)據(jù)為網(wǎng)絡(luò)反腐提供了一個非常龐大并且可以便利索取的“數(shù)據(jù)庫”和“信息來源”,這使得網(wǎng)絡(luò)猶如一個巨大的“信息蓄水池”。盡管這些信息是碎片化并且是無序排列的,但是可以通過設(shè)置“關(guān)鍵詞”等形式,將大數(shù)據(jù)變成小數(shù)據(jù),從而使得信息有序排列,獲取到有價值的信息。在“楊達(dá)才事件”中,以“楊達(dá)才、安監(jiān)局”為關(guān)鍵詞,就可以獲取大量相關(guān)的信息。利用搜索、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)新聞等互聯(lián)網(wǎng)服務(wù)中的語義分析和關(guān)鍵詞分析,掌握各地區(qū)腐敗輕重程度、廉潔指數(shù)、市民抱怨度、市民對政府的滿意度等,為反腐敗和廉政工作提供數(shù)據(jù)支撐。
第二,大數(shù)據(jù)刺激并鼓勵網(wǎng)民的“掏糞運動”。
19世紀(jì)末20世紀(jì)初,美國新聞界以雜志為主體掀起了一場揭露丑聞、譴責(zé)腐敗、呼喚正義與良心的運動,這就是著名的“掏糞運動”。這一名稱源于當(dāng)時的美國總統(tǒng)羅斯福。 在大數(shù)據(jù)時代,“掏糞運動”有越演越烈之勢。正是因為網(wǎng)民圍觀以及他們的“掏糞運動”,一件普通的事件也容易發(fā)生“多米諾骨牌效應(yīng)”,從而“拔出蘿卜帶出泥”。 “楊達(dá)才事件”,是一個微笑引發(fā)的腐敗案。一張再普通不過的新聞圖片,被細(xì)心的“信息搬運工”發(fā)現(xiàn),這位官員竟然在車禍現(xiàn)場微笑。旋即引起網(wǎng)民圍觀,繼而被扒出佩戴多款價值不菲的名表,又因回應(yīng)言辭欠妥陷入誠信危機(jī),再因眼鏡、皮帶等昂貴飾物被接連曝光催生腐敗疑云,直至因涉嫌嚴(yán)重違紀(jì)被撤職。
第三,大數(shù)據(jù)破解信息不對稱的監(jiān)督難題。
反腐敗之難,難在信息不對稱。運用大數(shù)據(jù)反腐敗,就像開在馬路上的汽車,任何行駛的蛛絲馬跡都逃不脫電子警察的法眼,從而真正做到全員監(jiān)控、全程監(jiān)控、全方位監(jiān)控,實現(xiàn)可記錄、可追溯、可查究。在全民圍觀時代,現(xiàn)實中再強(qiáng)勢的官員也會變成弱勢。官員不恰當(dāng)?shù)?a href='http://www.yishupeixun.net/liyizhishi/yanxingjuzhi/' target='_blank'>言行舉止,都有可能引發(fā)網(wǎng)絡(luò)圍觀效應(yīng),瞬間激起網(wǎng)民“拍磚”熱情,在虛擬社區(qū)形成巨大的輿論漩渦,并投射到現(xiàn)實社會中去。
通過大數(shù)據(jù)和云計算技術(shù)建立全國性的官員資產(chǎn)紀(jì)錄大數(shù)據(jù)庫。因為貪官可以通過白手套和假的身份文件持有資產(chǎn),因此可以仿效英國的電子護(hù) 照,在身份證和戶口當(dāng)中植入記錄指紋信息的電子芯片,這樣一來資產(chǎn)就和獨一無二的指紋對應(yīng)起來,再加上數(shù)據(jù)挖掘技術(shù),貪官的財產(chǎn)就無處遁形。
人民幣冠字號碼記錄跟蹤系統(tǒng)開始應(yīng)用于反腐敗。該系統(tǒng)是一種ATM現(xiàn)金循環(huán)保障方案,通過實時監(jiān)控交易和鈔票冠字號碼,一方面,可以幫助銀行解決自助設(shè)備現(xiàn)金循環(huán)出現(xiàn)的偽鈔糾紛、金額糾紛;另一方面,每個人正常所得工資及收入,其人民幣冠字號碼都很清楚,那么非法所得就是人民幣冠字號碼異常,這些人民幣是誰的,到了誰手中,誰在哪里使用,都很清楚,因此誰在行賄、受賄,就一目了然,因為有人民幣號碼作證,人民幣就是“跟蹤器”,現(xiàn)金行賄就難以進(jìn)行!
大數(shù)據(jù)的互聯(lián)網(wǎng)思維相關(guān)文章:
1.互聯(lián)網(wǎng)思維創(chuàng)業(yè)
2.2015年十大互聯(lián)網(wǎng)創(chuàng)意項目介紹