擁抱未來:Hugging Face發(fā)布的4.5億參數(shù)開源機(jī)器人模型SmolVLA
隨著科技的飛速發(fā)展,機(jī)器人技術(shù)已成為我們?nèi)粘I畹闹匾M成部分。Hugging Face,一家領(lǐng)先的開源機(jī)器人平臺(tái)提供商,近日公布了其最新的開源機(jī)器人模型——SmolVLA,該模型擁有4.5億參數(shù),具有普適性高、可在消費(fèi)級(jí)硬件設(shè)備上運(yùn)行的特點(diǎn),旨在降低開發(fā)者入門成本,推動(dòng)通用機(jī)器人智能體的研究進(jìn)展。
SmolVLA模型架構(gòu)新穎,結(jié)合了Transformer結(jié)構(gòu)與flow-matching解碼器,并采用了四項(xiàng)關(guān)鍵優(yōu)化技術(shù)。首先,通過跳過視覺模型中一半層數(shù),以提升推理速度并減小模型體積;其次,通過交替融合自注意力與交叉注意力模塊,提高多模態(tài)信息整合效率;第三,通過減少視覺Token數(shù)量以提升處理效率;最后,采用更輕量的SmolVLM2作為視覺編碼器,進(jìn)一步降低硬件要求。
在訓(xùn)練策略方面,SmolVLA采用通用操作數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,再針對(duì)特定任務(wù)進(jìn)行微調(diào),以提升適應(yīng)能力。盡管其訓(xùn)練數(shù)據(jù)遠(yuǎn)少于現(xiàn)有其他VLA模型(僅包括不到3萬個(gè)任務(wù)記錄),但Hugging Face表示,該模型在模擬環(huán)境和真實(shí)場(chǎng)景中的表現(xiàn)與大型模型相當(dāng),甚至在部分任務(wù)上實(shí)現(xiàn)“超越”。這一策略無疑為機(jī)器人模型的訓(xùn)練提供了新的思路。
值得一提的是,SmolVLA還引入了“異步推理架構(gòu)”,將感知處理(如視覺和語音理解)與動(dòng)作執(zhí)行進(jìn)行解耦,使機(jī)器人在面對(duì)快速變化的環(huán)境時(shí)能做出更及時(shí)的響應(yīng)。這一創(chuàng)新設(shè)計(jì)極大地提升了機(jī)器人的實(shí)用性。
Hugging Face還強(qiáng)調(diào)了SmolVLA的另一大優(yōu)勢(shì):用戶無需花費(fèi)大成本采購(gòu)專用AI訓(xùn)練服務(wù)器,只需使用MacBook Pro等消費(fèi)級(jí)硬件設(shè)備即可運(yùn)行SmolVLA-450M模型。這一舉措無疑降低了入門的門檻,使得更多的人有機(jī)會(huì)接觸和參與到機(jī)器人研究中來。
此外,用戶還可以考慮采購(gòu)Hugging Face推出的低成本機(jī)器人平臺(tái)(SO-100、SO-101和LeKiwi)等產(chǎn)品,這些產(chǎn)品旨在降低使用SmolVLA的成本。這些平臺(tái)在性能和易用性方面都有不俗表現(xiàn),為開發(fā)者提供了豐富的工具和資源,使他們能夠更高效地進(jìn)行研究和創(chuàng)新。
為了驗(yàn)證SmolVLA的性能,Hugging Face進(jìn)行了多項(xiàng)基準(zhǔn)測(cè)試。在LIBERO與Meta-World等模擬測(cè)試平臺(tái)上,SmolVLA的表現(xiàn)據(jù)稱優(yōu)于Octo、OpenVLA等業(yè)界競(jìng)品。而在使用真實(shí)機(jī)器人SO-100和SO-101進(jìn)行抓取、放置、堆疊與分類任務(wù)中,SmolVLA也展現(xiàn)出更好的性能。這些測(cè)試結(jié)果充分證明了SmolVLA的優(yōu)越性和潛力。
總的來說,Hugging Face的SmolVLA模型是一個(gè)令人振奮的突破。它利用先進(jìn)的算法和優(yōu)化技術(shù),結(jié)合消費(fèi)級(jí)硬件設(shè)備,為機(jī)器人研究領(lǐng)域打開了一扇新的大門。通過降低入門成本和提供豐富的資源,SmolVLA有望推動(dòng)機(jī)器人技術(shù)的普及和應(yīng)用,為我們的未來帶來更多的可能性。讓我們共同期待這一技術(shù)在未來的發(fā)展,以及它為我們生活帶來的改變。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )