科學家警告:用AI生成內容訓練AI 將在幾代內開始產生"垃圾"

6月20日消息,人工智能領域的專家預測,隨著越來越多的人工智能生成的內容在網上發(fā)布,未來接受這些數據訓練的人工智能最終將陷入混亂。

一群英國和加拿大的科學家在5月發(fā)表了一篇論文,試圖了解幾代AI相互訓練后會發(fā)生什么。在一個例子中,經過九次迭代的人工智能系統會喋喋不休地談論野兔,而最初的原始材料是關于中世紀建筑的。

該研究的作者之一、劍橋大學教授羅斯·安德森(Ross Anderson)在闡述關于研究結果的博客文章中寫道,數據表明,“經過幾次迭代后,人工智能輸出的文字就變成了垃圾,圖像也會變得無法理解”。這些科學家們的論文尚未經過同行評審,他們稱這種現象為“模型崩潰”。

聊天機器人ChatGPT背后的大語言模型(LLM)通常需要從互聯網上抓取大量數據進行訓練,這些數據多為人類生成。但隨著人們對這些工具的使用越來越多,人工智能生成的內容正被大量添加到在線數據池中,未來的LLM將從中學習。

科學家們說,利用人工智能生成內容對人工智能系統進行迭代訓練,意味著錯誤和無意義的例子會不斷增加,使后來的人工智能無法區(qū)分事實和虛構內容。他們擔憂道,人工智能將“通過強化自己的信念,開始曲解他們認為是真實的東西”。

安德森用莫扎特(Mozart)和另一位音樂家安東尼奧·薩列里(Antonio Salieri)的作品來闡釋這個問題。

他寫道:“如果你用莫扎特的作品來訓練某個音樂模型,你可以期待輸出的音樂風格有點像莫扎特,但不會有太多亮點,我們可以稱之為‘薩列里’。然后再利用‘薩列里’訓練下一代人工智能系統,如此反復下去,第五代或第六代模型會是什么樣子?”

這項研究的第一作者、牛津大學教授伊利亞·舒馬伊洛夫(Ilia Shumailov)說,問題在于人工智能在接受早期人工智能生成內容的訓練后對概率的感知。不太可能發(fā)生的事件越來越不可能反映在它的輸出中,從而縮小了下一代人工智能(根據這種輸出進行訓練)所能理解的可能性。

在論文中給出的一個例子中,人類生成的關于中世紀建筑的文本通過人工智能語言模型輸入,然后該模型的輸出用于訓練下一代人工智能。最初的文本巧妙地處理了相互競爭的建筑理論,并經過了多次這樣的循環(huán)。

到了第九次迭代,這些文字就變成了毫無意義的胡言亂語。上面寫著:“建筑是世界上最大的黑長耳大野兔、白長耳大野兔、藍長耳大野兔、紅長耳大野兔、黃長耳大野兔的家園。 ”

安德森將“模型崩潰”比作大規(guī)模污染,他寫道:“就像我們在海洋里撒滿了塑料垃圾,在大氣中放滿了二氧化碳,我們即將讓互聯網上充滿胡言亂語?!?/p>

人工智能生成的內容已經在網上大規(guī)模出現。今年5月,在線虛假信息監(jiān)管機構NewsGuard警告稱,它發(fā)現49個新聞網站似乎完全由人工智能撰寫內容。

據報道,市場營銷和公關機構越來越多地將文案外包給聊天機器人,從而搶走了人類創(chuàng)作者的工作。但是,根據舒馬伊洛夫和安德森的發(fā)現,希望不被人工智能打敗的人類創(chuàng)作者還不應該開香檳慶祝。

舒馬伊洛夫說,對于訓練人工智能來說,人工生成的數據并不是絕對必要的,它之所以有用,是因為我們的語言產生了大量的自然變化、錯誤和不可預測的結果。

“所以,人類肯定會提供幫助,”他說?!芭c此同時,這也表明,在訓練人工智能時,人類數據的需求不會非常龐大?!保ㄐ⌒。?/p>

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2023-06-20
科學家警告:用AI生成內容訓練AI 將在幾代內開始產生"垃圾"
隨著越來越多的人工智能生成的內容在網上發(fā)布,未來接受這些數據訓練的人工智能最終將陷入混亂。

長按掃碼 閱讀全文