人工智能理解意味著什么?

原標(biāo)題:人工智能理解意味著什么?

對(duì)于人工智能來(lái)說(shuō),似乎理解數(shù)據(jù)很簡(jiǎn)單,但事實(shí)證明,設(shè)計(jì)一個(gè)真正的機(jī)器知識(shí)測(cè)試是困難的。

還記得IBM的沃森嗎,人工智能的 "危險(xiǎn) "冠軍?2010年的一次宣傳宣稱(chēng),"沃森了解自然語(yǔ)言的所有模糊性和復(fù)雜性"。然而,正如我們看到的那樣,沃森后來(lái)在 "用人工智能徹底改變醫(yī)學(xué) "的追求中慘遭失敗,語(yǔ)言能力的外衣并不等同于真正理解人類(lèi)語(yǔ)言。

長(zhǎng)期以來(lái),自然語(yǔ)言理解一直是人工智能研究的一個(gè)主要目標(biāo)。起初,研究人員試圖對(duì)機(jī)器所需的一切進(jìn)行人工編程,以理解新聞故事、小說(shuō)或人類(lèi)可能寫(xiě)的其他東西。正如沃森所展示的那樣,這種方法是徒勞的--不可能寫(xiě)下理解文本所需的所有不成文的事實(shí)、規(guī)則和假設(shè)。最近,一種新的范式已經(jīng)建立。我們沒(méi)有建立明確的知識(shí),而是讓機(jī)器自己學(xué)習(xí)理解語(yǔ)言,僅僅通過(guò)攝取大量的書(shū)面文本和學(xué)習(xí)預(yù)測(cè)單詞。其結(jié)果就是研究人員所說(shuō)的語(yǔ)言模型。當(dāng)基于大型神經(jīng)網(wǎng)絡(luò)時(shí),如OpenAI的GPT-3,這樣的模型可以生成與人類(lèi)不相上下的散文(和詩(shī)歌?。?,似乎可以進(jìn)行復(fù)雜的語(yǔ)言推理。

但是,GPT-3--在數(shù)以千計(jì)的網(wǎng)站、書(shū)籍和百科全書(shū)的文本上進(jìn)行訓(xùn)練--是否超越了沃森的外衣?它真的理解它所產(chǎn)生的、表面上是推理的語(yǔ)言嗎?這是一個(gè)在人工智能研究界存在明顯分歧的話(huà)題。這樣的討論曾經(jīng)是哲學(xué)家的職權(quán)范圍,但在過(guò)去的十年里,人工智能已經(jīng)沖出了它的學(xué)術(shù)泡沫,進(jìn)入了現(xiàn)實(shí)世界,而它對(duì)這個(gè)世界的不理解可能會(huì)產(chǎn)生真實(shí)的、有時(shí)是毀滅性的后果。在一項(xiàng)研究中,IBM的沃森被發(fā)現(xiàn)提出了 "多個(gè)不安全和不正確的治療建議的例子"。另一項(xiàng)研究表明,谷歌的機(jī)器翻譯系統(tǒng)在為非英語(yǔ)國(guó)家的病人翻譯醫(yī)療指示時(shí)出現(xiàn)了重大錯(cuò)誤。

我們?nèi)绾尾拍茉趯?shí)踐中確定一臺(tái)機(jī)器是否能夠理解?1950年,計(jì)算機(jī)先驅(qū)阿蘭-圖靈試圖用他著名的 "模仿游戲 "來(lái)回答這個(gè)問(wèn)題,現(xiàn)在被稱(chēng)為圖靈測(cè)試。一臺(tái)機(jī)器和一個(gè)人,都隱藏起來(lái),只用對(duì)話(huà)來(lái)說(shuō)服人類(lèi)法官相信他們是人類(lèi)。圖靈斷言,如果法官無(wú)法分辨哪一個(gè)是人類(lèi),那么我們就應(yīng)該認(rèn)為機(jī)器在思考,而且實(shí)際上是在理解。

不幸的是,圖靈低估了人類(lèi)被機(jī)器所欺騙的傾向。即使是簡(jiǎn)單的聊天機(jī)器人,如Joseph Weizenbaum在1960年設(shè)計(jì)的冒牌心理治療師Eliza,也欺騙了人們,讓他們相信自己是在與一個(gè)善解人意的人對(duì)話(huà),即使他們知道他們的對(duì)話(huà)伙伴是一臺(tái)機(jī)器。

在2012年的一篇論文中,計(jì)算機(jī)科學(xué)家Hector Levesque、Ernest Davis和Leora Morgenstern提出了一個(gè)更客觀的測(cè)試,他們稱(chēng)之為Winograd模式挑戰(zhàn)。此后,這一測(cè)試被人工智能語(yǔ)言社區(qū)采用,作為評(píng)估機(jī)器理解的一種方式,也許是最好的方式--盡管正如我們將看到的,它并不完美。以語(yǔ)言研究者特里-維諾格拉德(Terry Winograd)命名的維諾格拉德模式由一對(duì)句子組成,它們之間正好相差一個(gè)詞,每個(gè)句子后面都有一個(gè)問(wèn)題。下面是兩個(gè)例子。

句子1:我把水從瓶子里倒進(jìn)杯子里,直到杯子滿(mǎn)了。

問(wèn)題。什么是滿(mǎn)的,瓶子還是杯子?

句子2:我把水從瓶子里倒進(jìn)杯子里,直到它空了為止。

問(wèn)題:什么是空的?什么是空的,瓶子還是杯子?

第1句:張三的叔叔在網(wǎng)球上仍能打敗他,盡管他比他大30歲。

問(wèn)題:誰(shuí)更老?誰(shuí)更老,張三還是張三的叔叔?

第2句:張三的叔叔仍然可以在網(wǎng)球上擊敗他,盡管他比他年輕30歲。

問(wèn)題:誰(shuí)更年輕?誰(shuí)更年輕,張三還是張三的叔叔?

神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在一組特定的Winograd模式上取得了約97%的準(zhǔn)確率。這大致等同于人類(lèi)的表現(xiàn)。

在每一對(duì)句子中,一個(gè)詞的差異可以改變代詞指代的事物或人。正確回答這些問(wèn)題似乎需要常識(shí)性的理解。Winograd模式的設(shè)計(jì)正是為了測(cè)試這種理解力,減輕了圖靈測(cè)試對(duì)不可靠的人類(lèi)裁判或聊天機(jī)器人技巧的脆弱性。特別是,作者們?cè)O(shè)計(jì)了幾百個(gè)他們認(rèn)為是 "防谷歌 "的模式。機(jī)器不應(yīng)該能夠使用谷歌搜索(或類(lèi)似的東西)來(lái)正確回答問(wèn)題。

這些模式是2016年舉行的一次競(jìng)賽的主題,獲勝的程序只有58%的句子是正確的--幾乎沒(méi)有比它猜測(cè)的更好的結(jié)果。領(lǐng)先的人工智能研究員奧倫-埃齊奧尼(Oren Etzioni)調(diào)侃道:"當(dāng)人工智能無(wú)法確定'它'在句子中指的是什么時(shí),很難相信它將接管世界。"

然而,由于大型神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的出現(xiàn),AI程序解決Winograd模式的能力迅速上升。2020年OpenAI的一篇論文報(bào)告說(shuō),GPT-3在Winograd模式的基準(zhǔn)集中有近90%的句子是正確的。其他語(yǔ)言模型在專(zhuān)門(mén)針對(duì)這些任務(wù)進(jìn)行訓(xùn)練后,表現(xiàn)甚至更好。在寫(xiě)這篇文章的時(shí)候,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在一組特定的Winograd模式上取得了約97%的準(zhǔn)確率,這些模式是被稱(chēng)為SuperGLUE的AI語(yǔ)言理解比賽的一部分。這一準(zhǔn)確率與人類(lèi)的表現(xiàn)大致相當(dāng)。這是否意味著神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型已經(jīng)達(dá)到了類(lèi)似人類(lèi)的理解能力?

不一定。盡管創(chuàng)作者盡了最大努力,但那些Winograd模式實(shí)際上并不符合谷歌的要求。這些挑戰(zhàn),就像目前許多其他對(duì)人工智能語(yǔ)言理解的測(cè)試一樣,有時(shí)允許走捷徑,讓神經(jīng)網(wǎng)絡(luò)在沒(méi)有理解的情況下表現(xiàn)良好。例如,考慮一下 "跑車(chē)超過(guò)了郵車(chē),因?yàn)樗乃俣雀?"和 "跑車(chē)超過(guò)了郵車(chē),因?yàn)樗乃俣雀?"這兩個(gè)句子。一個(gè)在巨大的英語(yǔ)句子語(yǔ)料庫(kù)中訓(xùn)練出來(lái)的語(yǔ)言模型將吸收 "跑車(chē) "和 "快 "之間的相關(guān)性,以及 "郵車(chē) "和 "慢 "之間的相關(guān)性,因此它可以?xún)H根據(jù)這些相關(guān)性而不是通過(guò)借鑒任何理解來(lái)正確回答。事實(shí)證明,SuperGLUE競(jìng)賽中的許多Winograd模式都允許這種統(tǒng)計(jì)學(xué)上的相關(guān)性。

來(lái)自艾倫人工智能研究所的一組研究人員并沒(méi)有放棄將Winograd模式作為一種理解的測(cè)試,而是決定嘗試解決其中的一些問(wèn)題。2019年,他們創(chuàng)建了WinoGrande,一個(gè)更大的Winograd模式集。WinoGrande沒(méi)有幾百個(gè)例子,而是包含了高達(dá)44000個(gè)句子。為了獲得這么多的例子,研究人員求助于亞馬遜Mechanical Turk,一個(gè)流行的眾包工作平臺(tái)。每個(gè)(人類(lèi))工人被要求寫(xiě)幾對(duì)句子,并有一些限制條件,以確保收集的句子包含不同的主題,盡管現(xiàn)在每對(duì)句子的差異可能超過(guò)一個(gè)詞。

然后,研究人員試圖通過(guò)對(duì)每個(gè)句子應(yīng)用相對(duì)不復(fù)雜的人工智能方法來(lái)消除那些可能允許統(tǒng)計(jì)捷徑的句子,并丟棄那些太容易解決的句子。正如預(yù)期的那樣,剩下的句子對(duì)機(jī)器來(lái)說(shuō)是一個(gè)比原來(lái)的Winograd模式集更難的挑戰(zhàn)。雖然人類(lèi)的得分仍然很高,但在原始句子集上與人類(lèi)表現(xiàn)相當(dāng)?shù)纳窠?jīng)網(wǎng)絡(luò)語(yǔ)言模型在WinoGrande句子集上的得分卻低得多。這個(gè)新的挑戰(zhàn)似乎可以挽回Winograd模式作為常識(shí)性理解的測(cè)試--只要對(duì)句子進(jìn)行仔細(xì)的篩選,確保它們不受谷歌的影響。

然而,另一個(gè)驚喜正在醞釀之中。在WinoGrande文集出版后的近兩年時(shí)間里,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型已經(jīng)越來(lái)越大,而且它們?cè)酱?,似乎在這個(gè)新的挑戰(zhàn)中得分越高。在寫(xiě)這篇文章的時(shí)候,目前最好的程序--它們?cè)赥B級(jí)的文本上進(jìn)行了訓(xùn)練,然后在成千上萬(wàn)的WinoGrande例子上進(jìn)一步訓(xùn)練--獲得了接近90%的正確率(人類(lèi)獲得了大約94%的正確率)。這種性能的提高幾乎完全是由于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型及其訓(xùn)練數(shù)據(jù)的規(guī)模擴(kuò)大所致。

理解語(yǔ)言需要理解世界,而只接觸語(yǔ)言的機(jī)器無(wú)法獲得這種理解。

這些越來(lái)越大的網(wǎng)絡(luò)是否最終達(dá)到了人類(lèi)的常識(shí)性理解?同樣,這也是不可能的。WinoGrande的結(jié)果有一些重要的注意事項(xiàng)。例如,由于這些句子依靠的是亞馬遜Mechanical Turk的工人,寫(xiě)作的質(zhì)量和連貫性相當(dāng)不平衡。另外,用于剔除 "非谷歌認(rèn)證 "句子的 "不成熟 "的人工智能方法可能太不成熟,無(wú)法發(fā)現(xiàn)一個(gè)巨大的神經(jīng)網(wǎng)絡(luò)所能使用的所有可能的統(tǒng)計(jì)捷徑,而且它只適用于個(gè)別句子,所以剩下的一些句子最終失去了 "雙胞胎"。一項(xiàng)后續(xù)研究表明,只對(duì)雙胞胎句子進(jìn)行測(cè)試的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型--并且要求在這兩個(gè)句子上都正確--其準(zhǔn)確度遠(yuǎn)遠(yuǎn)低于人類(lèi),這表明早先90%的結(jié)果并不像看上去那么重要。

那么,該如何看待Winograd的傳奇故事呢?主要的教訓(xùn)是,通常很難從它們?cè)谔囟ㄌ魬?zhàn)上的表現(xiàn)來(lái)確定人工智能系統(tǒng)是否真正理解它們所處理的語(yǔ)言(或其他數(shù)據(jù))。我們現(xiàn)在知道,神經(jīng)網(wǎng)絡(luò)經(jīng)常使用統(tǒng)計(jì)學(xué)上的捷徑--而不是真正表現(xiàn)出類(lèi)似人類(lèi)的理解力--來(lái)獲得Winograd模式以及許多最流行的 "一般語(yǔ)言理解 "基準(zhǔn)的高績(jī)效。

在我看來(lái),問(wèn)題的關(guān)鍵在于,理解語(yǔ)言需要理解世界,而只接觸語(yǔ)言的機(jī)器無(wú)法獲得這種理解??紤]一下理解 "跑車(chē)超過(guò)了郵車(chē),因?yàn)樗叩帽容^慢 "意味著什么。你需要知道什么是跑車(chē)和郵車(chē),汽車(chē)可以相互 "超越",而且,在更基本的層面上,車(chē)輛是存在于世界上并相互作用的物體,由人類(lèi)駕駛,有他們自己的議程。

所有這些都是我們?nèi)祟?lèi)認(rèn)為理所當(dāng)然的知識(shí),但它并沒(méi)有內(nèi)置于機(jī)器中,也不可能明確地寫(xiě)在任何語(yǔ)言模型的訓(xùn)練文本中。一些認(rèn)知科學(xué)家認(rèn)為,人類(lèi)為了學(xué)習(xí)和理解語(yǔ)言,依賴(lài)于先天的、語(yǔ)言前的關(guān)于空間、時(shí)間和世界的許多其他基本屬性的核心知識(shí)。如果我們想讓機(jī)器同樣掌握人類(lèi)的語(yǔ)言,我們將需要首先賦予它們?nèi)祟?lèi)天生的原始原則。而為了評(píng)估機(jī)器的理解力,我們應(yīng)該從評(píng)估它們對(duì)這些原則的掌握開(kāi)始,人們可以稱(chēng)之為 "嬰兒形而上學(xué)"。

與沃森和GPT-3等人工智能系統(tǒng)的驚人功績(jī)相比,訓(xùn)練和評(píng)估機(jī)器的嬰兒級(jí)智能似乎是一個(gè)巨大的退步。但是,如果真正的和值得信賴(lài)的理解是目標(biāo),這可能是通向機(jī)器的唯一途徑,它們可以真正理解 "它 "在句子中指的是什么,以及理解 "它 "所帶來(lái)的其他一切。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2021-12-18
人工智能理解意味著什么?
在寫(xiě)這篇文章的時(shí)候,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在一組特定的Winograd模式上取得了約97%的準(zhǔn)確率,這些模式是被稱(chēng)為SuperGLUE的AI語(yǔ)言理解比賽的一部分。

長(zhǎng)按掃碼 閱讀全文