微軟清華北大聯(lián)手推出AI動(dòng)態(tài)分配模型:AI任務(wù)不再一刀切,資源分配更合理

微軟清華北大聯(lián)手推出AI動(dòng)態(tài)分配模型:AI任務(wù)不再一刀切,資源分配更合理

隨著科技的飛速發(fā)展,人工智能(AI)已成為我們生活的重要組成部分。近日,微軟研究院聯(lián)合清華大學(xué)、北京大學(xué)共同推出了一種全新的AI動(dòng)態(tài)分配模型——獎(jiǎng)勵(lì)推理模型(RRMs),這一創(chuàng)新性的研究成果將有望解決當(dāng)前AI任務(wù)資源分配不均的問題,為AI領(lǐng)域的發(fā)展注入新的活力。

RRMs模型的核心在于通過顯式推理過程動(dòng)態(tài)分配計(jì)算資源,以提升復(fù)雜任務(wù)評(píng)估效果。這一方法通過“思維鏈”(Chain-of-Thought)推理,針對(duì)獎(jiǎng)勵(lì)不明顯的復(fù)雜查詢投入更多測(cè)試時(shí)計(jì)算資源,從而實(shí)現(xiàn)對(duì)不同任務(wù)類型的自適應(yīng)分配,使得資源利用更為合理。

強(qiáng)化學(xué)習(xí)(RL)已成為大語言模型(LLM)后訓(xùn)練的核心方法,而人類反饋(RLHF)或可驗(yàn)證獎(jiǎng)勵(lì)(RLVR)則為強(qiáng)化學(xué)習(xí)提供了有效的監(jiān)督信號(hào)。然而,RLVR在數(shù)學(xué)推理中雖有潛力,卻因其依賴可驗(yàn)證答案的訓(xùn)練查詢而受限,難以應(yīng)用于通用領(lǐng)域的大規(guī)模訓(xùn)練。為了解決這一問題,RRMs提出了新的解決方案。

RRMs基于Qwen2模型,采用Transformer-decoder架構(gòu),將獎(jiǎng)勵(lì)建模轉(zhuǎn)化為文本補(bǔ)全任務(wù),生成推理過程后給出最終判斷。這一設(shè)計(jì)思路使得獎(jiǎng)勵(lì)推理模型能夠更好地適應(yīng)各種任務(wù)場(chǎng)景,同時(shí)也提高了模型的泛化能力。

為了評(píng)估RRMs的性能,研究團(tuán)隊(duì)利用RewardBench庫進(jìn)行系統(tǒng)分析。RewardBench庫包含多個(gè)評(píng)估指標(biāo),如指令遵循性、幫助性、準(zhǔn)確性、無害性和細(xì)節(jié)水平等,這些指標(biāo)能夠全面地評(píng)估AI系統(tǒng)的性能。通過RewardBench庫的評(píng)估,RRMs在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)突出,尤其是在推理類別中達(dá)到了98.6%的準(zhǔn)確率。這一成果無疑證明了RRMs在復(fù)雜查詢中的有效性。

值得一提的是,隨著模型規(guī)模的擴(kuò)大,RRMs的性能得到了進(jìn)一步提升。從7B到32B的模型規(guī)模擴(kuò)展,帶來了更長(zhǎng)的推理時(shí)間,但準(zhǔn)確性卻始終保持增長(zhǎng)。這一特性使得RRMs在面對(duì)大規(guī)模任務(wù)時(shí)能夠更加高效地利用計(jì)算資源,為傳統(tǒng)標(biāo)量獎(jiǎng)勵(lì)模型提供了強(qiáng)大替代方案。

此外,RRMs還支持多響應(yīng)評(píng)估,通過ELO評(píng)分系統(tǒng)和淘汰賽機(jī)制,結(jié)合多數(shù)投票提升計(jì)算資源利用率。這一機(jī)制能夠更好地適應(yīng)不同場(chǎng)景下的評(píng)估需求,提高計(jì)算資源的利用率,從而更好地服務(wù)于各類AI任務(wù)。

總的來說,微軟清華北大聯(lián)手推出的RRMs模型為AI領(lǐng)域帶來了全新的視角和解決方案。通過動(dòng)態(tài)分配計(jì)算資源,RRMs有效提升了復(fù)雜任務(wù)評(píng)估效果,為AI任務(wù)提供了更為合理和高效的資源分配方式。這一創(chuàng)新性的研究成果將有望推動(dòng)AI領(lǐng)域的發(fā)展,為未來的科技應(yīng)用帶來更多可能性。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2025-05-28
微軟清華北大聯(lián)手推出AI動(dòng)態(tài)分配模型:AI任務(wù)不再一刀切,資源分配更合理
微軟清華北大聯(lián)手推出AI動(dòng)態(tài)分配模型:AI任務(wù)不再一刀切,資源分配更合理 隨著科技的飛速發(fā)展,人工智能(AI)已成為我們生活的重要組成部...

長(zhǎng)按掃碼 閱讀全文