關于虛擬現實的科技論文2000字范文(2)
關于虛擬現實的科技論文2000字范文
關于虛擬現實的科技論文2000字范文篇二
人機交互:在虛擬與現實之間
電影《哈利·波特》里,魔法世界的報紙上每一張圖片都是會動的,可以隨著閱讀幻化成一段影像,打開的是報紙,看到的卻像電視。被譽為天才少年的普拉納夫·米斯特里展示的發(fā)明,已經可以把電影里的奇幻圖景變?yōu)楝F實。當他隨意打開一張報紙,如果是體育版,比賽的照片就變成比賽的視頻;如果是時政版,官員的照片就變成了他們演說的現場。
普拉納夫使用的不是魔杖和咒語,而是現代科技。這套被他命名為“第六感”的裝置,包括了集合了包括攝像頭和投影設備的可以掛在脖子上的長條裝置、指尖的四色識別膠條和一部可以連接互聯網的智能手機。攝像頭捕捉著手指的動作,識別周圍的環(huán)境和動作的意義,并做出反饋;通過投影設備,任何物體表面都可以成為顯示屏,將反饋的結果呈現出來。這些識別和反饋,都是計算,完成這些復雜計算的,也不是魔法,而是通過智能手機連接到的“云端”——通過互聯網實現鏈接的擁有強大計算能力的服務器。
在普拉納夫的裝置里,每一項技術都不是前所未有,但他把這些技術集成起來完成創(chuàng)新的想法,卻是前所未有的天才。所以,當他在TED的印度大會上展示完這項發(fā)明的時候,全場起立,掌聲雷動。TED是英語中三個單詞的縮寫:技術、娛樂和設計,它是美國的一家私有非盈利機構,宗旨是“用思想的力量來改變社會”,它不僅創(chuàng)立了基金會,還在全球運營TED大會,召集科學、設計、文學等多個領域的杰出人物,來分享他們的前沿思考。“第六感”兩次出現在TED的演講視頻里,一次是普拉納夫在麻省理工學院的導師主講,然后請他以發(fā)明者的身份上臺稍作演示;另一次就是TED的2009年印度大會,普拉納夫單獨上臺,更完整地展示了他的創(chuàng)想。
通過“第六感”裝置,普拉納夫不僅可以把任何物體表面變成他的顯示屏,更了不起的是,在真實世界和虛擬世界之間的隨時切換。他不僅可以在紙上看視頻,在墻上玩游戲、進行文檔處理,還可以只用四個手指組成一個取景框就完成拍照,在手腕上做一個畫手表的涂鴉動作,就真的能在手腕上投射出一個有指針的手表看時間。與一個陌生人見面,就能通過網絡搜索分析,將對方的個性關鍵詞解析出來并投射在對方身上;對一本實體書的任何一段文字或圖形做一個簡單的抓取動作,就能讓它們呈現在虛擬的顯示屏里……
“第六感”裝置與筆記本電腦或者智能手機在本質上并沒有區(qū)別,也是一種計算能力的載體,只不過,人們可以用更簡單的操作,更自然地完成與機器的互動。其實,自從計算機發(fā)明以來,人機交互,也就是人類與機器的“對話”就一直是科學家們在研究的課題,最自然的人機交互模式是什么樣子?不僅局限于我們現有的技術能力,更取決于我們的想象力。普拉納夫自己的思考是:“我們的下一代天然就會在任何屏幕上點擊、在紙質照片上做縮放的動作……他們看待物質世界的方式與我們截然不同。所以,思考下一代的媒介時也必然要跳出盒子,同時從虛擬世界向物理世界思考。” 與機器“對話”
從計算機誕生開始,人與機器的對話也就開始了。還記得簡陋的DOS界面下那些必須死記硬背的命令代碼嗎?早期,人機對話的“門檻”很高,要經過專門的學習,掌握特定的復雜操作指令,才能讓計算機明白人們的簡單需求,輸出簡單的結果。“在早期的命令語言用戶界面時代,人和計算機的交互主要是通過鍵盤來完成的。此時的計算機主要是大型機,用來進行科學計算,接受文本命令。”中科院自動化研究所模式識別國家重點實驗室研究院陶建華說,“后來,道格·恩格爾巴特發(fā)明了鼠標,施樂公司提出了圖形界面的交互方式,計算機由此進入了個人PC時代,WIMP范式成為電腦所采用的界面典范。”
“WIMP是由視窗(Window)、圖標(Icon)、菜單(Menu)以及指針(Pointer)所組成的縮寫。”陶建華解釋說,“這種命名方式也指明了它所倚賴的四大互動元件,在人機互動領域之中,WIMP范式堪稱標準和典范。”不管是微軟的Windows、蘋果電腦的MacOS,甚至其他以X-Window為基礎的操作系統(tǒng),都采用WIMP范式。但隨著計算機硬件設備的進步和軟件技術的發(fā)展,WIMP界面的缺點逐漸地體現出來。“比如平板電腦和智能手機,屏幕小,而且為了攜帶方便,就不適宜再配置鼠標,焦點自然就聚集到了下一代的用戶界面的研究上。”用戶界面技術的每一次飛躍,都是為了完成同樣的目標:幫助計算機了解用戶,幫助用戶更好地使用計算機,實現計算能力的延展。 道格·恩格爾巴特和他發(fā)明的鼠標
除了鍵盤輸入,鼠標點擊,我們還能用什么方式與機器互動?蘋果智能手機和平板電腦系列的誕生,讓我們看到了另一種可能性——觸屏、語音和手勢、動作識別,在術語里,它們都被統(tǒng)稱為“人機交互模式”。不過,這些交互模式真的是蘋果的獨創(chuàng)嗎?答案是否定的。“早在10年前,新的交互模式就已經出現了,但是在蘋果手機出現之前,沒有任何產品能取得同樣的成功。”陶建華分析說,“第一個原因,是傳感器技術當時還不夠發(fā)達,觸摸控制設備很早就有了,不過早期是電阻式觸摸屏,靠作用的力來改變屏幕的電子屬性,完成輸入,所以一般都配有專門的觸控筆,或者需要用手很用力地按壓屏幕,而蘋果手機使用的是電容式觸摸屏,通過靜電感應來完成輸入,從電阻屏到電容屏,在技術上并非質變,但在用戶體驗上,卻完全不同。”
“另一個原因,是語音識別技術和對話管理技術的發(fā)展。”陶建華解釋說,“早期的語音識別系統(tǒng)很不完善,識別率低,體驗感也不高。”陶建華已經從事了近30年語音交互技術的研究,他回憶說,“研究早期,除了像IBM和微軟這樣的大機構,對世界上其他許多研究機構來說,計算機信息資源都受到諸多限制,在語音識別系統(tǒng)上,缺乏聲音數據資源來進行訓練,能使用的服務器群組也非常有限。聲音數據的采集,要耗費大量的人力物力,還要由專業(yè)機構進行文字轉換和處理,再變成機器能識別的語言。早期我們能有幾百個小時的聲音數據就很不容易了,哪里像現在,動輒就是1萬多個小時的聲音數據。”數據的豐富,意味著機器可以完成更多的模型訓練,能更好地識別聲音的不同特征。而互聯網的發(fā)展,推動了“云識別”技術的進步,通過云端更為龐大的服務器和計算模型的創(chuàng)新,“我們不僅擁有了更豐富的數據,也擁有了更強大的數據處理能力”。 大數據時代的未來 普拉納夫·米斯特里在演示“第六感科技” 2011 年2 月28 日,德國漢諾威CeBIT 展會上,牽頭開發(fā)“沃森”的IBM 公司科學家費魯奇(左)向參會者展示這款超級電腦
語言是人類交流時最主要的信息方式,那么我們與計算機之間是否也可以同樣實現?陶建華已經從事了近30年的語音交互模式研究,在他的記憶里,“語音技術的發(fā)展經歷過三次高峰”。“第一次是上世紀70年代到80年代,一個短暫的高峰,計算機已經能做語音識別處理,但技術遠遠未能達到應用層面。曾經最為著名的貝爾實驗室,花費了許多的人力物力投入到語音撥號的研究中,結果也未能成功。”“第二次高峰是90年代,統(tǒng)計計算模型的引入。早期的語音處理雖然能夠建立規(guī)則,但是識別僵化,而隱馬爾可夫模型的引入,使得理想狀態(tài)下的整個識別結果的準確率一下子超過了90%,這是驚人的進步,不僅僅大機構在投入研究,也因此誕生許多相關的科技公司,包括后來開發(fā)出SiRi系統(tǒng)的公司。”“第二次的高潮持續(xù)到2000年左右,隨互聯網泡沫的低潮進入低潮,尤其是2000到2005年這一段時間,整個國際上對語音技術的研究投入都很少,直到蘋果公司買下SiRi專利,在發(fā)布的新款手機上推出了這個系統(tǒng)。從2009年開始,語音技術的研究進入了新的熱潮,除了手機,還有車載語音系統(tǒng)、無人值守電話等領域。”陶建華很清楚地記得他在比利時參加的一場語音技術的國際會議:“現場展出了一款高檔車的語音系統(tǒng),導航、儀表控制等等,都實現了語音控制,我印象最深的是,為了實現車內的降噪,每輛車里的若干個麥克風設置都是無比精準的。”
這三次高峰里呈現出兩個規(guī)律,如果產生了新的計算模型,計算機的計算能力得到質的飛躍,就能極大地推動語音技術的發(fā)展,與此同時,新的成功的應用,反過來也會推動技術研究的進步。中國的語音技術研究,“如果說90年代還沒有跟上國際步伐,那么從2005年左右開始,我們已經基本跟國際同步了”。陶建華欣喜地看到了語音識別技術準確率的不斷提高,“這幾年的識別準確率一下子提高了好幾個百分點,從93%飛躍到了96%以上,這在過去是不可思議的。當準確率提升到90%以后,每增長一個點都是非常非常難的,過去十幾年,也沒有提高一個點,但現在我們可以做到了”。作為研究者,他也意識到這背后更值得思考的問題:“這種提升,是因為另一種計算方法的出現,‘深度機器學習方法’,這是加拿大人Hinton的研究做出的革命性的引領。深度機器學習方法與隱馬爾克夫統(tǒng)計模型的結合,實現了這幾年的準確率提升。但是,雖然深度機器學習方法是一種創(chuàng)新,但是在大的框架上,我們還沒能突破最初的統(tǒng)計計算模型,未來的技術發(fā)展,最終還是要取決于計算模式上的根本性創(chuàng)新。”
不過,計算模式的根本性突破,顯然是更為艱難和漫長的道路,所以,在比較近期的未來,我們更可能看到的還是各種新型應用的產生。陶建華舉例說:“比如像谷歌眼鏡這樣的產品,主要就是通過語音控制,眼鏡接受特定的語音指令實現開機、打電話,完成拍照、攝像和在社交網絡實時分項等功能。”類似這樣的產品,“過去也有人在研究,在眼鏡上加上麥克風和攝像頭等等,但是和蘋果手機一樣,在谷歌眼鏡之前,并沒有一款產品能夠被人記住”。在他看來,這些產品的成功都有同樣的原因,“應用構思如此巧妙,交互模式如此友好”。
這些產品的出現,也一再印證了同一個規(guī)律,“創(chuàng)意的原型來自科研機構,但是,最成功、成熟的創(chuàng)意往往來自大公司,因為他們更接近應用,而且擁有更強大的研發(fā)實力”。 機器的“智能思考”
當年深藍計算機的出現,實現了人機對弈時的戲劇性變化,機器與世界冠軍之間分出了勝負。深藍被比喻成具備了“5歲孩子的智力”?,F在,隨著大數據時代研究的進展,擁有更高智力的計算機已經出現。它亮相于美國家喻戶曉的一檔游戲節(jié)目《危險地帶》,與下棋不同,這是一個多人參與的現場搶答節(jié)目,這就意味著,計算機遠不止要能進行語音識別,它既要能聽懂問題,還要能做出及時判斷。從觀感上,人類與這個計算機之間,已經能夠進行順暢的交流。這個計算機是IBM的沃森解決項目,在計算方法上的創(chuàng)新,是“智慧計算”的嘗試,它的研發(fā)目的是用于醫(yī)療。
IBM沃森項目研發(fā)團隊介紹說:“沃森一個重大的特點是基于事實的、基于已經記錄下來的事實所推演出來的答案。”“沃森非常擅長從一個大量的知識體當中尋找答案。沃森本身是不具有所謂的直覺,也不具有主觀的意見,所以雖然它能力很強,但是永遠不會取代醫(yī)生和其他的專業(yè)人士,這些專業(yè)人士他們的特長是具有豐富的經驗和專業(yè)的直覺。人類的專家的特長或者特別的價值就在于找到從前從未發(fā)現的知識,從前從未回答過的問題。”“人類在給出答案的時候,也許對于事實沒有那么廣泛的掌握,對于事實的話可能也沒有那么持久的記得,往往是以印象、直覺、主觀的意見來給出答案,沃森是完全基于事實給出的答案。在很多場景之下,往往會出人意料地給出一些答案,這些答案事實上也都是基于事實的。”
最有價值的,自然是智慧計算的嘗試和努力,IBM的沃森團隊介紹說:“這使得我們把計算從一種線性的計算模式轉成一種大型的計算,能夠同時考慮多個因素的一種大型計算。用一個例子來解釋什么是單純的線性計算到考慮綜合因素的計算的變化。”“認知計算,把整個計算的水準又大大提升了一步,它其中一個顯著因素是把一些類似于人類的推理推導和理解的能力加入到計算當中來,增加對預期期望的因素,這就變得更加智能,能夠把一些不是直截了當所表達的因素和環(huán)境的知識能夠同時加入到計算當中來,綜合利用這些因素,能夠得到一些更為精準和更為智慧的答案。這些答案都往往不是事先編制在系統(tǒng)當中的,而是由類似于人類的推理推導而帶來新的見解。”
不過“從本質上來講,沃森并不在模擬人腦的運算模式,盡管是從效果的角度來講,達成了某些類似的效果,尤其是在對于語言的處理上”。“在沃森里有一個模塊,有一個硬件是用了神經計算的能力,除此之外我們并沒有在沃森的技術里面過多用神經系統(tǒng)的領域。神經計算有很大的潛力,是值得大家關注的,可是人類是如何思考、思維和推理之間是有很大的不了解的地方,真正達成在一個計算機里的電子和半導體當中的流轉到最后如何通過電腦能夠獲取知識,達成結論,得到理解,這個距離是一樣遠的。所以總而言之,神經計算是值得關注的計算領域,它的一些工作也得到一些應用,可是在目前沃森里面還不是一個主流。從機器計算到人腦計算之間還有一個遙遠的距離,我們還不知道進展的時間表是什么。”
看了“關于虛擬現實的科技論文2000字范文”的人還看: