久夜色精品国产一区二区三区,中文字幕乱码一区三区免费,国产精品亚洲精品影院

極客網(wǎng)·人工智能5月24日 事實(shí)證明，人們對(duì)于AI能力的認(rèn)知還有許多誤區(qū)和歧義，因此需要消除這些誤解。

像ChatGPT和GPT-4這樣的大型語(yǔ)言模型(LLM)得到全球關(guān)注，人們也在充分發(fā)揮他們的想象力，這樣功能強(qiáng)大的AI系統(tǒng)展現(xiàn)出了迷人的魅力，但許多研究人員指出，很多人對(duì)大型語(yǔ)言模型的了解只是冰山一角。

斯坦福大學(xué)研究人員日前進(jìn)行的一項(xiàng)研究表明，大型語(yǔ)言模型(LLM)的一些能力可能被人們誤解了。研究人員研究了先前報(bào)道的大型語(yǔ)言模型(LLM)在訓(xùn)練和開(kāi)發(fā)過(guò)程中出現(xiàn)的“涌現(xiàn)能力”。他們?cè)谘芯恐邪l(fā)現(xiàn)，當(dāng)選擇正確的指標(biāo)來(lái)評(píng)估大型語(yǔ)言模型(LLM)時(shí)，大型語(yǔ)言模型(LLM)的涌現(xiàn)能力就會(huì)消失。

這項(xiàng)研究的結(jié)果很重要，因?yàn)樗议_(kāi)了大型語(yǔ)言模型(LLM)具有的一些神奇能力的神秘面紗，并且還對(duì)“規(guī)模是創(chuàng)造更好的大型語(yǔ)言模型唯一途徑”這一觀點(diǎn)提出了質(zhì)疑。

大型語(yǔ)言模型(LLM)的涌現(xiàn)能力

一些研究已經(jīng)檢驗(yàn)了大型語(yǔ)言模型(LLM)顯示出的涌現(xiàn)能力。一項(xiàng)研究將涌現(xiàn)能力定義為“在較小的模型中不存在，但在較大的模型中存在的能力”?；旧?，這意味著機(jī)器學(xué)習(xí)模型在某些任務(wù)上具有隨機(jī)性能，直到其大小達(dá)到一定的閾值。在達(dá)到閾值之后，隨著其規(guī)模的增長(zhǎng)，大型語(yǔ)言模型(LLM)的能力將開(kāi)始提升?？梢栽趫D1中看到LLM表現(xiàn)出的涌現(xiàn)能力，其性能在一定范圍內(nèi)突然躍升。

大型語(yǔ)言模型(LLM)顯示出大規(guī)模的涌現(xiàn)能力.jpg

大型語(yǔ)言模型(LLM)顯示出大規(guī)模的涌現(xiàn)能力，在模型大小達(dá)到一定閾值之前，其完成任務(wù)的性能保持在隨機(jī)水平。之后，隨著模型規(guī)模的變大，其性能將會(huì)躍升并開(kāi)始提高。

研究人員對(duì)LaMDA、GPT-3、Gopher、Chinchilla和PaLM等具有1000多億個(gè)參數(shù)的大型語(yǔ)言模型(LLM)的涌現(xiàn)能力進(jìn)行了研究。這些研究包括從BIG-Bench中選擇的任務(wù)，BIG-Bench是一個(gè)眾包基準(zhǔn)，包括語(yǔ)言學(xué)、常識(shí)推理和數(shù)學(xué)等許多領(lǐng)域。他們還使用了TruthfulQA、大規(guī)模多任務(wù)語(yǔ)言理解（MMLU）和場(chǎng)景中的單詞（WiC）進(jìn)行了測(cè)試，這些測(cè)試都是為了了解大型語(yǔ)言模型(LLM)在處理復(fù)雜語(yǔ)言任務(wù)方面的局限性。

有幾個(gè)原因使大型語(yǔ)言模型(LLM)的涌現(xiàn)能力變得非常重要。首先，這些研究表明，在開(kāi)展進(jìn)一步創(chuàng)新的情況下擴(kuò)展大型語(yǔ)言模型(LLM)規(guī)?？梢岳^續(xù)在更通用的AI能力方面取得進(jìn)展。其次，隨著大型語(yǔ)言模型(LLM)的發(fā)展，人們無(wú)法預(yù)測(cè)它們會(huì)帶來(lái)什么。當(dāng)然，這些研究結(jié)果將會(huì)進(jìn)一步強(qiáng)化大型語(yǔ)言模型(LLM)的神秘光環(huán)。

為什么大型語(yǔ)言模型(LLM)的涌現(xiàn)能力會(huì)被炒作

斯坦福大學(xué)的這項(xiàng)新研究對(duì)大型語(yǔ)言模型(LLM)所謂的涌現(xiàn)能力提出了不同的看法。根據(jù)他們的研究，對(duì)大型語(yǔ)言模型(LLM)的涌現(xiàn)能力的觀察通常是由于指標(biāo)的選擇引起的，而不是規(guī)模。斯坦福大學(xué)的研究人員認(rèn)為，“現(xiàn)在關(guān)于涌現(xiàn)能力的說(shuō)法是研究人員分析的結(jié)果，而不是特定任務(wù)中模型行為隨著規(guī)模的增加而發(fā)生變化?！彼麄冎赋?，強(qiáng)有力的支持證據(jù)表明，涌現(xiàn)能力可能不是擴(kuò)展AI模型的基本屬性。

具體來(lái)說(shuō)，他們認(rèn)為涌現(xiàn)能力似乎只出現(xiàn)在非線性或不連續(xù)地縮放任何模型的每個(gè)令牌錯(cuò)誤率的指標(biāo)下。這意味著在衡量任務(wù)性能時(shí)，一些指標(biāo)可能顯示出大規(guī)模的涌現(xiàn)能力，而另一些則顯示出持續(xù)的改進(jìn)。

例如，有些測(cè)試只測(cè)量大型語(yǔ)言模型(LLM)輸出正確令牌的數(shù)量。這種情況尤其發(fā)生在與分類和數(shù)學(xué)相關(guān)的任務(wù)中，只有當(dāng)所有生成的令牌都是正確的時(shí)候，其輸出才是正確的。

實(shí)際上，LLM模型輸出的令牌逐漸接近正確的令牌。但由于最終答案與基本事實(shí)不同，它們都被歸類為不正確，直到它們達(dá)到所有標(biāo)記都是正確的閾值。

研究人員表示，在他們的研究中，如果對(duì)相同的輸出使用不同的指標(biāo)，涌現(xiàn)能力就會(huì)消失，LLM模型的性能也會(huì)平衡提高。這些指標(biāo)衡量的是到達(dá)正確答案的線性距離，而不僅僅是計(jì)算正確答案。

當(dāng)用非線性指標(biāo)進(jìn)行評(píng)估時(shí)，LLM出現(xiàn)涌現(xiàn)能力；當(dāng)用線性指標(biāo)進(jìn)行評(píng)估時(shí)，性能會(huì)平穩(wěn)提高.jpg

當(dāng)用非線性指標(biāo)進(jìn)行評(píng)估時(shí)，LLM出現(xiàn)涌現(xiàn)能力；當(dāng)用線性指標(biāo)進(jìn)行評(píng)估時(shí)，性能會(huì)平穩(wěn)提高

研究人員還發(fā)現(xiàn)，在某些情況下，出現(xiàn)涌現(xiàn)能力是由于沒(méi)有足夠的測(cè)試數(shù)據(jù)。通過(guò)創(chuàng)建更大的測(cè)試數(shù)據(jù)集，其性能改進(jìn)就會(huì)變得穩(wěn)步提高。

為了進(jìn)一步證明這一點(diǎn)，研究人員試圖了解是否能在其他類型的深度神經(jīng)網(wǎng)絡(luò)中重現(xiàn)涌現(xiàn)能力的情況。他們對(duì)視覺(jué)任務(wù)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行了測(cè)試。測(cè)試結(jié)果表明，如果他們使用非線性指標(biāo)來(lái)評(píng)估LLM模型的性能，那么就會(huì)觀察到在大型語(yǔ)言模型(LLM)中會(huì)出現(xiàn)相同的情況。

為什么這個(gè)結(jié)論至關(guān)重要？

研究人員在發(fā)表的論文總結(jié)出一個(gè)重要的結(jié)論：“對(duì)于一個(gè)固定的任務(wù)和一個(gè)固定的模型家族，研究人員可以選擇一個(gè)指標(biāo)來(lái)創(chuàng)建涌現(xiàn)能力，也可以選擇一個(gè)指標(biāo)來(lái)消除涌現(xiàn)能力。因此，涌現(xiàn)能力可能是研究人員選擇的產(chǎn)物，而不是模型家族在特定任務(wù)上的基本屬性。”

研究人員表示，并不是說(shuō)大型語(yǔ)言模型(LLM)不能顯示出涌現(xiàn)能力，但他們強(qiáng)調(diào)，之前聲稱的LLM中的涌現(xiàn)能力可能是研究人員在分析時(shí)引發(fā)的幻象。

這一研究的一個(gè)重要收獲是對(duì)于認(rèn)識(shí)大型語(yǔ)言模型(LLM)性能提供了一個(gè)更關(guān)鍵的視角。鑒于LLM的驚人能力和成果，如今已經(jīng)有了一種將它們擬人化的趨勢(shì)，或?qū)⑺鼈兣c其不具備的特性聯(lián)系起來(lái)。

這項(xiàng)研究得出的結(jié)論很重要，因?yàn)樗鼈儗⒂兄跒榇笮驼Z(yǔ)言模型(LLM)領(lǐng)域帶來(lái)更清醒的認(rèn)識(shí)，并更好地理解擴(kuò)大LLM模型規(guī)模的影響。Sam Bowman最近發(fā)布的一篇論文指出:“當(dāng)實(shí)驗(yàn)室投資訓(xùn)練一個(gè)新的大型語(yǔ)言模型(LLM)并逐步擴(kuò)大規(guī)模時(shí)，他們有理由相信將會(huì)獲得具有經(jīng)濟(jì)價(jià)值的各種新能力，但他們幾乎無(wú)法對(duì)這些能力做出自信的預(yù)測(cè)，或者他們需要做些什么準(zhǔn)備才能負(fù)責(zé)任地部署這些能力?！倍辛烁玫募夹g(shù)來(lái)衡量和預(yù)測(cè)改進(jìn)，研究人員將能夠更好地評(píng)估更大的LLM模型的效益和風(fēng)險(xiǎn)。

這種方法也有助于鼓勵(lì)研究人員探索創(chuàng)建更大的大型語(yǔ)言模型(LLM)的替代方案。雖然只有大型科技公司才能負(fù)擔(dān)得起訓(xùn)練和測(cè)試大型LLM的成本，但規(guī)模較小的公司也可以對(duì)較小的模型進(jìn)行研究。有了這些指標(biāo)，他們將能夠更好地探索這些較小的LLM的功能，并找到新的研究方向來(lái)改進(jìn)它們。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）