Meta新視頻生成框架VideoJAM:雙人舞也能輕松倒立雜技?
Meta GenAI團隊近日推出的全新框架VideoJAM,引發(fā)了業(yè)界的廣泛關注。VideoJAM基于主流的DiT路線,卻能在運動一致性上超越Sora、Gen3等模型,甚至在處理運動場景時,其運動效果更貼合物理規(guī)律,令人嘆為觀止。
首先,VideoJAM在處理運動場景時,視覺效果顯著提升,且更加貼合物理規(guī)律。無論是吹滅蠟燭時火苗的晃動,還是用手捏史萊姆時的形狀變化,甚至三個球來回拋的雜技表演,都能很好地體現(xiàn)出拋物線軌跡。這無疑是對現(xiàn)有視頻生成模型的一次重大突破,使得運動一致性得到了近20%的提升。
VideoJAM的訓練中引入了運動信息,這是其運動一致性提升的關鍵。在訓練和推理階段,VideoJAM針對經(jīng)典的DiT架構(gòu)進行了補充。具體來說,模型在生成視頻的同時,也學習如何預測對應的運動。通過聯(lián)合外觀-運動表示,VideoJAM對現(xiàn)有視頻生成模型進行了兩處關鍵性改動,添加了輸入和輸出兩個線性投影層。輸入投影層將外觀特征和運動特征拼接后映射到模型的隱藏空間,形成一個聯(lián)合的潛在表示,這個潛在表示融合了靜態(tài)外觀信息和動態(tài)運動信息。輸出投影層則從模型的聯(lián)合潛在表示中解碼出視頻的外觀預測和運動預測。
而在推理階段,VideoJAM采用了內(nèi)部引導機制,進一步增強生成視頻的運動一致性。這種機制使用模型自身在每個生成步驟中預測的運動信息來動態(tài)調(diào)整生成過程,可以實時捕捉生成視頻的動態(tài)變化。這使得VideoJAM能夠?qū)崟r調(diào)整生成過程,以捕捉動態(tài)變化,從而提升運動一致性。
消融實驗表明,VideoJAM采用的光流表示和內(nèi)部引導機制正是其實現(xiàn)高運動一致性的關鍵。粗略階段重點關注大范圍的運動連貫性,如整體方向和節(jié)奏;細化階段則轉(zhuǎn)向優(yōu)化細節(jié),如肢體動作的微調(diào)和物體交互的物理合理性。這種反饋機制使得模型在發(fā)現(xiàn)不一致時能夠自動進行調(diào)整,從而提升了運動一致性。
VideoJAM的強大之處還在于它能夠無縫集成到不同規(guī)模的DiT模型中。這意味著無論是大型模型還是小型模型,都可以利用VideoJAM帶來的運動效果提升。這一點對于模型開發(fā)者和用戶來說都極具吸引力,因為它降低了使用VideoJAM的門檻,使得更多人能夠從中受益。
總的來說,VideoJAM是一個非常出色的視頻生成框架,它能夠在保持高質(zhì)量視頻生成的同時,提升運動一致性。無論是對于研究者還是開發(fā)者來說,VideoJAM都是一個值得一試的工具。我們期待看到更多使用VideoJAM創(chuàng)建的精彩視頻作品出現(xiàn)。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )