英偉達(dá)合作推出Fast-dLLM框架:AI擴(kuò)散模型推理速度飆升,速度提升高達(dá)27.6倍,顛覆業(yè)界!

英偉達(dá)推出Fast-dLLM框架:AI擴(kuò)散模型推理速度飆升,顛覆業(yè)界!

自從英偉達(dá)聯(lián)合麻省理工學(xué)院(MIT)、香港大學(xué)共同研發(fā)出Fast-dLLM框架以來(lái),AI擴(kuò)散模型推理速度的提升,無(wú)疑在業(yè)界掀起了一場(chǎng)革命。該框架通過(guò)引入兩大創(chuàng)新——塊狀近似KV緩存機(jī)制和置信度感知并行解碼策略,成功地將擴(kuò)散模型的推理速度提升了高達(dá)27.6倍。

首先,我們要理解什么是擴(kuò)散模型。擴(kuò)散模型是一種基于自回歸模型的生成模型,它通過(guò)雙向注意力機(jī)制實(shí)現(xiàn)多詞元的同步生成,理論上能夠加速解碼過(guò)程。然而,在實(shí)際應(yīng)用中,擴(kuò)散模型的推理速度往往無(wú)法媲美自回歸模型,主要是因?yàn)槊看紊刹襟E都需要重復(fù)計(jì)算全部注意力狀態(tài),導(dǎo)致計(jì)算成本高昂。

為了解決這個(gè)問(wèn)題,F(xiàn)ast-dLLM框架引入了塊狀近似KV緩存機(jī)制。該機(jī)制通過(guò)將序列劃分為塊,預(yù)計(jì)算并存儲(chǔ)其他塊的激活值,在后續(xù)解碼中重復(fù)利用,顯著減少計(jì)算冗余。更進(jìn)一步的是,DualCache版本還緩存了前后綴詞元,利用相鄰?fù)评聿襟E的高相似性提升效率。這種緩存機(jī)制不僅減少了計(jì)算成本,還提高了生成質(zhì)量。

而Fast-dLLM框架的另一大創(chuàng)新是置信度感知并行解碼策略。根據(jù)設(shè)定的閾值,該策略選擇性解碼高置信度的詞元,避免同步采樣帶來(lái)的依賴沖突,確保生成質(zhì)量。這種策略在確保生成質(zhì)量的同時(shí),大大提高了推理速度。

在基準(zhǔn)測(cè)試中,F(xiàn)ast-dLLM框架展現(xiàn)了驚人的表現(xiàn)。在GSM8K數(shù)據(jù)集上,生成長(zhǎng)度為1024詞元時(shí),其8-shot配置下實(shí)現(xiàn)了27.6倍加速,準(zhǔn)確率達(dá)76.0%;在MATH基準(zhǔn)測(cè)試中,其加速倍數(shù)為6.5倍,準(zhǔn)確率約為39.3%。這些數(shù)據(jù)充分證明了Fast-dLLM框架的高效性和實(shí)用性。

然而,值得注意的是,F(xiàn)ast-dLLM框架在加速的同時(shí),準(zhǔn)確率僅下降了1-2個(gè)百分點(diǎn),這說(shuō)明該框架在速度與質(zhì)量之間實(shí)現(xiàn)了有效平衡。這項(xiàng)研究通過(guò)解決推理效率和解碼質(zhì)量問(wèn)題,讓擴(kuò)散模型在實(shí)際語(yǔ)言生成任務(wù)中具備了與自回歸模型競(jìng)爭(zhēng)的實(shí)力,為未來(lái)廣泛應(yīng)用奠定了基礎(chǔ)。

總的來(lái)說(shuō),F(xiàn)ast-dLLM框架的推出無(wú)疑是AI領(lǐng)域的一大突破。它不僅提升了AI擴(kuò)散模型推理的速度,還為該領(lǐng)域的研究者們提供了一個(gè)新的研究方向。我們有理由相信,隨著該框架的進(jìn)一步發(fā)展和完善,它將為人工智能的發(fā)展帶來(lái)更多的可能性。

最后,我們期待著Fast-dLLM框架在未來(lái)的應(yīng)用中能夠展現(xiàn)出更大的潛力,為人類社會(huì)帶來(lái)更多的便利和進(jìn)步。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2025-06-03
英偉達(dá)合作推出Fast-dLLM框架:AI擴(kuò)散模型推理速度飆升,速度提升高達(dá)27.6倍,顛覆業(yè)界!
英偉達(dá)推出Fast-dLLM框架:AI擴(kuò)散模型推理速度飆升,顛覆業(yè)界! 自從英偉達(dá)聯(lián)合麻省理工學(xué)院(MIT)、香港大學(xué)共同研發(fā)出Fast-dLLM框架以...

長(zhǎng)按掃碼 閱讀全文