谷歌DeepMind引領(lǐng)新潮流:AI生成視頻模擬真實(shí)運(yùn)動(dòng)
隨著科技的進(jìn)步,我們正目睹一場由谷歌DeepMind引領(lǐng)的革命,其在視頻生成模型上的創(chuàng)新成果,將徹底改變我們對視頻生成的理解。近日,DeepMind攜手布朗大學(xué)成功開發(fā)了一種名為“力提示”(Force Prompting)的技術(shù),該技術(shù)能夠在無需3D模型或物理引擎的情況下,生成出逼真的運(yùn)動(dòng)效果。這一突破性的成果,無疑將為視頻生成領(lǐng)域開啟全新的可能。
力提示技術(shù)的核心在于,用戶只需指定力的方向和強(qiáng)度,就能操控AI生成的視頻內(nèi)容。這種力量以矢量場形式輸入系統(tǒng),隨后被轉(zhuǎn)化為自然流暢的運(yùn)動(dòng)。該技術(shù)包含了全局力和局部力兩種力量,全局力如風(fēng)吹過整個(gè)畫面,而局部力則如特定點(diǎn)的敲擊。這些力的引入,使得AI在生成視頻時(shí)能夠更加真實(shí)和自然。
為了研發(fā)這一技術(shù),研究團(tuán)隊(duì)基于CogVideoX-5B-I2V視頻模型,加入了ControlNet模塊處理物理控制數(shù)據(jù)。通過Transformer架構(gòu),每段視頻包含49幀,僅用4臺(tái)Nvidia A100 GPU訓(xùn)練一天即可完成。這一過程不僅高效,而且精確,為力提示技術(shù)的實(shí)現(xiàn)提供了堅(jiān)實(shí)的基礎(chǔ)。
訓(xùn)練數(shù)據(jù)是這一技術(shù)成功的關(guān)鍵。訓(xùn)練數(shù)據(jù)完全為合成,包括全局力數(shù)據(jù)如1.5萬段不同風(fēng)力下旗幟飄動(dòng)的視頻,以及局部力數(shù)據(jù)如1.2萬段滾動(dòng)球體和1.1萬段花朵受沖擊反應(yīng)的視頻。這些數(shù)據(jù)不僅種類豐富,而且數(shù)量龐大,為模型的訓(xùn)練提供了充足的資源。
值得一提的是,在生成過程中,文本描述中在加入“風(fēng)”或“氣泡”等物理術(shù)語后,模型會(huì)自動(dòng)建立正確的力與運(yùn)動(dòng)關(guān)系。這一特性使得力提示技術(shù)能夠在復(fù)雜的場景中發(fā)揮作用,適應(yīng)新物體、材質(zhì)和場景,甚至掌握簡單物理規(guī)則。例如,在相同力下,輕物移動(dòng)距離比重物遠(yuǎn),這一簡單的物理規(guī)則在模型中得到了良好的體現(xiàn)。
盡管訓(xùn)練數(shù)據(jù)有限,但模型展現(xiàn)出了強(qiáng)大的泛化能力。它能適應(yīng)新物體、材質(zhì)和場景,甚至掌握簡單物理規(guī)則。這一成果令人振奮,預(yù)示著未來AI可能不再僅僅依賴數(shù)據(jù),而是能在模擬環(huán)境中通過經(jīng)驗(yàn)學(xué)習(xí)。
在用戶測試中,“力提示”技術(shù)在運(yùn)動(dòng)匹配度和真實(shí)感上優(yōu)于純文本或運(yùn)動(dòng)路徑控制的基準(zhǔn)模型,甚至超越了依賴真實(shí)物理模擬的PhysDreamer(僅在圖像質(zhì)量上稍遜)。這一結(jié)果無疑證明了力提示技術(shù)的強(qiáng)大潛力。
谷歌DeepMind的這一創(chuàng)新成果,無疑將引發(fā)一場新的潮流。這種無需3D模型和物理引擎的視頻生成技術(shù),將為我們的生活帶來更多的可能性和驚喜。我們期待著這種技術(shù)在未來的發(fā)展,以及它為我們帶來的更多改變。
總的來說,谷歌DeepMind的力提示技術(shù)為我們展示了一個(gè)全新的可能世界。在這個(gè)世界里,AI不僅能處理文本和圖像,還能理解和模擬物理規(guī)則。這是一個(gè)令人興奮的領(lǐng)域,也是我們通向更通用AI的關(guān)鍵一步。我們期待著DeepMind在未來能夠帶來更多的突破性成果,引領(lǐng)我們進(jìn)入一個(gè)更加智能、更加真實(shí)的世界。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )