英偉達發(fā)布Cosmos-Reason1系列:AI物理通識新突破,引領(lǐng)智能科技新篇章
隨著科技的飛速發(fā)展,人工智能(AI)在各個領(lǐng)域的應用越來越廣泛。然而,AI在處理物理環(huán)境方面的能力仍然有限,面臨著諸多挑戰(zhàn)。為了應對這一難題,英偉達推出了全新的Cosmos-Reason1系列模型,這一創(chuàng)新舉措無疑將為智能科技領(lǐng)域開啟新的篇章。
首先,我們需要理解AI在物理環(huán)境中的挑戰(zhàn)。AI在語言處理、數(shù)學和代碼生成等領(lǐng)域取得了顯著進步,但將其能力擴展到物理環(huán)境仍面臨諸多困難。在物理環(huán)境中,AI需要依賴視頻等感官輸入,結(jié)合現(xiàn)實物理法則生成反應,涉及導航、操作和交互等任務,這需要AI具備常識推理和對空間、時間及物理規(guī)律的具身理解。然而,目前AI在連接物理世界方面仍然薄弱,無法直觀理解重力或空間關(guān)系,導致在具身任務中表現(xiàn)不佳。
為了解決這一難題,英偉達推出了全新的Cosmos-Reason1系列模型。該系列模型分為Cosmos-Reason1-7B和Cosmos-Reason1-56B兩個版本,通過兩個階段的訓練,即Physical AI Supervised Fine-Tuning(SFT)和Physical AI Reinforcement Learning(RL)。這一創(chuàng)新的訓練方式,使得模型能夠更好地理解和適應物理環(huán)境。
為了訓練這些模型,研究團隊引入了雙本體系統(tǒng)。一個分層本體將物理常識分為空間、時間和基礎(chǔ)物理三大類,細化為16個子類;另一個二維本體則映射人類、機械臂、人形機器人等五種具身代理的推理能力。這樣的設(shè)計使得模型能夠更好地理解和處理物理環(huán)境中的各種情況。
模型架構(gòu)采用了大型語言模型(LLM),結(jié)合視覺編碼器處理視頻數(shù)據(jù),實現(xiàn)文本和視覺數(shù)據(jù)的同步推理。訓練數(shù)據(jù)包含約400萬條標注視頻-文本對,涵蓋動作描述和復雜推理任務。這些數(shù)據(jù)經(jīng)過精心挑選和標注,以確保模型能夠獲得足夠的物理常識和具身推理能力。
為了構(gòu)建針對物理常識的基準測試,研究團隊創(chuàng)建了604個問題,包含426個視頻。這些問題涵蓋了各種物理常識,如力學、電學、光學等,為評估模型的物理推理能力提供了良好的標準。同樣,針對具身推理的基準測試也包含610個問題,600個視頻。這些問題涉及到各種具身任務,如預測行動、驗證任務完成和評估物理可行性等。
在基準測試中,Cosmos-Reason1系列模型表現(xiàn)出色。特別是在經(jīng)過RL訓練后,模型在預測下一步行動、驗證任務完成和評估物理可行性等方面取得了顯著進步。這些成果充分證明了Cosmos-Reason1系列模型在AI物理通識方面的新突破。
總的來說,英偉達發(fā)布的Cosmos-Reason1系列模型是一次AI在物理通識方面的重大突破。該系列模型通過創(chuàng)新的訓練方法和強大的數(shù)據(jù)處理能力,為機器人、自動駕駛車輛等領(lǐng)域帶來了實際應用潛力。這一創(chuàng)新成果無疑將推動智能科技領(lǐng)域的發(fā)展,引領(lǐng)我們進入一個全新的智能時代。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )