人工智能測試系統(tǒng)論文(2)
人工智能測試系統(tǒng)論文
人工智能測試系統(tǒng)論文篇二
圖靈測試是人工智能的標準嗎?
科學就是一個可以被證偽的學說。任何一個科學論述,都要能夠被實驗檢驗。比如說,要科學地解釋定義什么是自我意識,其本質(zhì)就是設(shè)計一個實驗。比如觀察動物在鏡子里看到自己時候的行為,是尋找鏡子后面的另一只動物,還是知道鏡子里就是自己。通過做類似的實驗,我們可以判斷,貓、老鼠、猴子等等有沒有自我意識。
人工智能領(lǐng)域中,最重要的概念就是智能。但什么樣的實驗?zāi)軌蚨x”智能“這個概念?大家常常利用圖靈測試這個實驗來定義有沒有智能。但這一定義真的合適嗎?真的有利于人工智能的發(fā)展嗎?有沒有更好的實驗定義?這篇文章深入討論了這個問題。
——文小剛
王培(美國天普大學計算機與信息科學系)
隨著人工智能成為熱門話題,“圖靈”(Alan M. Turing,1912.6.23~1954.6.7)這個名字也逐漸廣為人知。一個常見的說法是把他提出的“圖靈測試”作為人工智能的標準或定義,并以此為由稱他為“人工智能之父”。我下面要反駁這種說法,理由是:
(1)這個說法不符合人工智能的史實;
(2)把圖靈測試作為人工智能的定義是不恰當?shù)?
(3)其實圖靈本人并不是這個意思。
我無意貶低圖靈對人工智能的重大貢獻,只是試圖澄清一些誤解,并指出這些誤解在當前人工智能討論中所造成的問題。我不希望這些問題被錯誤地算在圖靈名下。
1圖靈和人工智能到底是什么關(guān)系?
圖靈大概是最早認識到“計算機”除了完成數(shù)值計算之外還能從事其它智力活動的人之一,并且是第一個對此進行了系統(tǒng)思考和深入分析的。有證據(jù)表明,他早在1941年就開始考慮在計算機上實現(xiàn)“智能”(或者說“思維”,在這個討論中這兩個詞差別不大)的可能性了,并在1948年寫了以“智能機器”為題的報告,盡管他最廣為人知的有關(guān)著述是在1950年發(fā)表的《計算機器與智能》[1]。
在這篇歷史文獻中,圖靈開宗明義地要大家考慮機器是否能思維的問題。為了避免“思維”一詞在解釋上的混亂,他主張只要計算機在語言行為(對話)上和人沒有明顯差別,就應(yīng)該算是“能思維”或“有智能”了。這就是后來所稱的“圖靈測試”。他認為可以編制一個“兒童”程序,然后對其進行教育以達到成人的智力水平。圖靈自己在1948年曾和朋友合作設(shè)計過一個國際象棋程序,但在他1954年去世之前沒能把他關(guān)于智能機器的設(shè)想充分展開。
“人工智能”作為一個研究領(lǐng)域,公認是在1956年夏的達特茅斯會議上形成的。這個只有十來個人參加的會議不但給這個領(lǐng)域取了名,而且涌現(xiàn)了其主要奠基人:麥卡錫、明斯基、紐維爾、司馬賀。這四個人,以及他們分別在斯坦福、麻省理工、卡內(nèi)基梅隆建立的研究中心,主導(dǎo)了這個領(lǐng)域前幾十年的研究方向。他們遠比圖靈更有資格被稱為“人工智能之父”,而圖靈更適合被稱為“先行者”。
比名號更重要的是:這幾位對智能的理解和圖靈有重要的差別。他們當中沒有一個是以“通過圖靈測試”作為自己研究工作的目標的,并且都或明或暗地對這個測試表示過不以為然。在達特茅斯會議的計劃書中,人工智能問題被說成讓計算機的行為符合人們對智能行為的認識。以此為起點,主流人工智能一直是以“讓計算機解決那些人腦能解決的問題”為工作定義和劃界標準的,而并不要求系統(tǒng)的具體行為和人不可區(qū)分。以計算機圍棋為例,“把棋下好”和“把棋下的和人下的一樣”是兩個不同的研究目標。出于這種考慮,在主流人工智能文獻中提到圖靈測試時,一般都是只承認其歷史價值,而否認其對研究工作的現(xiàn)實指導(dǎo)意義的。就在不久前,世界上最大的人工智能協(xié)會AAAI的機關(guān)刊物《人工智能雜志》的2016春季號還出了一期專刊來討論圖靈測試的各種替代方案。
以通過圖靈測試為目標的對話程序一般稱為“chatbot” 。這個詞和機器人(robot)一詞相近,故常被譯作“聊天機器人”,但其實應(yīng)當譯作“聊天程序”,因為它們都是專用軟件,而非專用硬件。這類工作在歷史上長期被大部分人工智能研究者視為旁門左道或嘩眾取寵,其中最著名的例子的是魏增鮑姆在1966年編寫的“伊莉莎”(ELIZA)。這個程序只憑一些簡單的花招就使得很多使用者相信他們是在和一個人對話,以至于后來產(chǎn)生了“伊莉莎效應(yīng)”這個概念,專指一個計算機系統(tǒng)的使用者和觀察者以擬人化的思路解釋系統(tǒng)的行為,因此賦予了該系統(tǒng)許多它本來根本不具有的品質(zhì)。這種現(xiàn)象在對“阿爾法狗”的評論中又一次得到了充分展現(xiàn)。近來,主要拜深度學習所賜,聊天程序的研發(fā)終于被接納成了主流人工智能的一部分,而圖靈測試在這個領(lǐng)域中自然是一個恰當?shù)臉藴?。但盡管如此,這個標準也不能推廣到人工智能的其它子領(lǐng)域。因此,至今以通過圖靈測試為目標的工作仍只占人工智能領(lǐng)域中很小的一部分。
反對圖靈測試的意見來自若干不同的方向。
主流人工智能既然是以“解決那些人腦能解決的問題”為目標,自然是要“解題能力”越高越好,而不在乎“解題行為”是否和人一樣。如果對某個問題有更適合計算機的解決辦法,那為什么還一定要像人腦那樣做呢?圖靈已經(jīng)預(yù)料到,要通過他的測試,計算機要會裝傻和撒謊才行,因為在某些方面(如算數(shù))能力太強就不像人了?!度斯ぶ悄茈s志》??岬降奶娲鷪D靈測試的主要理由也是它往往鼓勵系統(tǒng)采用欺騙手段,而非真正展現(xiàn)其認知能力。
香農(nóng)(對,就是創(chuàng)建信息論那位)和麥卡錫在1956年的一篇文章中提出圖靈測試的缺點是:“在原則上”它可以通過查一張列出所有問題和相應(yīng)答案的清單來做到,因此和我們關(guān)于思維的直觀不符。具有諷刺意味的是,隨著計算機硬件的發(fā)展,現(xiàn)在的一些“智能系統(tǒng)”的確是按這個“原則”構(gòu)建的。哲學家塞爾的“中文屋”思想試驗也是假定一個計算機可以用這個平淡無奇的辦法通過圖靈測試,而他以此論證真正的(強)人工智能不可能實現(xiàn)。
如我在《當你談?wù)撊斯ぶ悄軙r,到底在談?wù)撌裁?》中解釋的,“人工智能”固然是要造“像人腦那樣工作的計算機”,但關(guān)于“在哪方面像人腦”的不同看法已經(jīng)將研究引向完全不同的方向。圖靈測試是要計算機在行為上像人,而主流人工智能是要在解決各種問題的能力上像人甚至超過人。這兩種研究都有價值且有相互聯(lián)系,但并不是一回事。這正是主流人工智能不接受圖靈測試的根本原因。
我自己的研究目標既非再現(xiàn)人類行為,也非達到或超越人類問題求解能力,而是讓計算機遵循人所體現(xiàn)的信息加工原則。我認為這個原則就是“在知識和資源不足時適應(yīng)環(huán)境”(詳見《王培專欄|人工智能:何為“智”?》,而其它具體的“思維規(guī)律”都是建立在這個基礎(chǔ)上的。根據(jù)這個原則,一個智能系統(tǒng)的行為(輸出)依賴于它的經(jīng)驗(輸入)。由于一個人工智能系統(tǒng)不會有和人類完全相同的經(jīng)驗,它就不會有和人類完全相同的行為,即使其輸入-輸出關(guān)系和人的基本一樣。因此,我的系統(tǒng)不是以通過圖靈測試為目標的。比如說,它對一個問題的回答取決于系統(tǒng)自身對此問題知道些什么,而不是一個普通人對此問題知道些什么。
3圖靈錯了嗎?
在這個問題上最令人哭笑不得的一點是:圖靈從來沒有建議過把他的測試作為“思維”或“智能”的定義。
盡管圖靈的文章《計算機器與智能》被廣泛引用,但很多人可能只看了他開頭介紹“模仿游戲”(即后來被稱為“圖靈測試”)的那一部分。我這么說是因為他的下面一段話很少被提到:
“難道機器不會做某些應(yīng)該被說成思維但和人所做的很不同的事嗎?這是個很有力的反對意見,但我們至少可以說,如果能夠成功地玩模仿游戲的機器可以被構(gòu)造出來,我們無需為這種反對意見而煩惱。”
這段話說的很明白:圖靈把通過他的測試作為“能思維”的充分條件,而非充分必要條件(也就是定義)。這就是說和人行為一樣必是能思維,但和人行為不同也未必就不算思維。在1952年參加BBC的一個廣播節(jié)目時,圖靈明確表示他沒有試圖給“思維”下一個定義,而只是想在人腦諸多性質(zhì)之間“劃一條線”,來區(qū)分那些智能機器需要具有的和那些不需要具有的[2]。
既然圖靈沒有給“思維”或“智能”下定義,而人工智能的領(lǐng)軍人物們也沒有接受這個測試,那“圖靈測試是人工智能的定義”是誰說的呢?這大致是一些對人工智能半懂不懂的人士的貢獻,而好萊塢也難逃其咎。一旦這個簡單易懂的說法傳播開來,大概誰也拿它沒有辦法了,更不要說圖靈英年早逝,沒機會反復(fù)辟謠了。
綜上所述,在主流人工智能歷史上,圖靈測試從未被接受為標準或定義,而圖靈也不是人工智能主流研究規(guī)范的奠基人,盡管他的觀點的確對很多人產(chǎn)生了不同程度的影響。圖靈測試的弊端是“和人的行為完全一樣”不應(yīng)被當作“智能”的必要條件。雖然實際上圖靈從來也沒有這個意思,他的文章的確給了不少人這種誤解。
盡管如此,我仍認為圖靈對人工智能做出了巨大的貢獻。這體現(xiàn)在下列方面:
他是最早明確指出“思維”和“智能”可能在計算機上實現(xiàn)的人,并且清醒地看出智能機器不會和人在一切方面都相同。比如在《計算機器與智能》中,他認為一個智能機器可能沒有腿或眼,這就是說一個靠輪子運動和靠聲納感覺的機器人完全可能有智能。與此相反,至今仍有不少人以為真正實現(xiàn)人工智能的唯一辦法是全面地、忠實地復(fù)制人的一切。盡管圖靈測試把這條線畫的離人太近,但總是一個有意義的開端。
在《計算機器與智能》中,他分析并駁斥了9種對思維機器的反對意見。從那時(1950)至今,對人工智能的反對意見層出不窮,但細細看來都不出他的預(yù)料,只是具體表述“與時俱進”了而已。盡管圖靈當年的反駁沒有徹底解決問題,他的預(yù)見性仍令人驚嘆。就沖這一點,他的文章就沒有過時。
他認為我們應(yīng)當設(shè)計一個通用學習系統(tǒng),并通過教育使其擁有各種具體技能。與此相反,主流人工智能系統(tǒng)的能力仍主要來自于初始設(shè)計,即使目前的“機器學習”也僅限于某種特定的學習過程(詳見《計算機會有超人的智能嗎?》)。如果他沒有那么早去世,人工智能可能會有一條不同于達特茅斯諸君所引領(lǐng)的路線。
在我看來,圖靈的主要局限是沒有看到軀體和經(jīng)驗對概念和信念的重要影響。一個沒有腿和眼的機器人完全可以有智能,但是不會有和人類完全相同的思想,因此也就不會有和人類完全相同的行為,即使我們只關(guān)注其語言行為也是如此。如果這個系統(tǒng)的智力足夠高,它的確可能靠對人類的知識通過圖靈測試(所以這個測試可以作為智能的充分條件),但這不應(yīng)該是我們說它有智能的唯一依據(jù)。
4和我們有什么關(guān)系嗎?
以上分析的目的不僅僅是澄清歷史事實,更是要據(jù)此評說目前的狀況。
把圖靈測試作為人工智能的標準或定義直接導(dǎo)致了對這一領(lǐng)域成果評價的片面化、膚淺化、娛樂化。既然一個計算機系統(tǒng)不可能在所有方面同等水平地和人相像,那么聚焦于其外在行為的似人程度就意味著忽略其內(nèi)在機制的似人程度。在最近的新聞和討論中不難發(fā)現(xiàn)這一傾向的種種表現(xiàn):
以聊天程序的蒙人水平來評價其智力,
以人的智商標準來評估計算機智力發(fā)展水平,
以高考成績來衡量計算機智能,
以在作曲或繪畫上“以假亂真”的本事來體現(xiàn)人工智能的創(chuàng)造力,
以似人的“面部表情”或“肢體動作”來表現(xiàn)機器的“感情”。
這些工作不能說毫無意義,但仍是主要靠伊莉莎效應(yīng)來贏得承認,即靠觀眾想“只有聰明人能這么做,現(xiàn)在這個計算機做到了,所以它一定聰明”,而完全忽略這些行為在計算機中的產(chǎn)生機制,尤其是它們和系統(tǒng)設(shè)計、以往經(jīng)歷、當前情境等因素的關(guān)系。比如說,盡管有理由認為一個人工智能系統(tǒng)可能有情感機制和審美能力(詳情以后再說),那也不意味著它注定會“美我們之所美”、“愛我們之所愛”。賈府上的焦大是不愛林妹妹的,但這不說明他沒有愛憎。實際上如果他表現(xiàn)出愛她,那反而不是真感情了。既然賈寶玉的情感和審美標準不能推廣到其他人,有什么理由認為人類的情感和審美標準可以推廣到其他智能物種呢?
一個領(lǐng)域的成果評價標準如果是不合適的,后果會很嚴重。不但研發(fā)工作會被誤導(dǎo),公眾的期望也會落空,而且會錯過真正有價值的方向。在人工智能領(lǐng)域中,這仍然是個大問題。
參考文獻
[1] Alan Turing, Computing Machinery and Intelligence, Mind 49: 433-460, 1950
[2] Alan Turing, Richard Braithwaite, Geoffrey Jefferson, Max Newman, Can Automatic Calculating Machines Be Said To Think? A broadcast discussion on BBC Third Programme, January 14, 1952
人工智能測試系統(tǒng)論文相關(guān)文章: