英偉達推出創(chuàng)新AI技術(shù):Llama Nano VL,顛覆性解決復(fù)雜文檔解析難題
隨著科技的飛速發(fā)展,人工智能(AI)在各個領(lǐng)域的應(yīng)用日益廣泛。英偉達,作為全球知名的圖形處理器提供商,近日又推出了一款創(chuàng)新AI技術(shù)——Llama Nano VL,該技術(shù)以顛覆性的方式解決了復(fù)雜文檔解析的難題。
Llama Nano VL是一款視覺-語言模型(VLM),基于Llama 3.1架構(gòu),融合了CRadioV2-H視覺編碼器和Llama 3.1 8B指令微調(diào)語言模型。它能夠同時處理多頁文檔中的視覺和文本元素,支持最長16K的上下文長度,覆蓋圖像和文本序列。通過投影層和旋轉(zhuǎn)位置編碼,該模型實現(xiàn)了視覺-文本對齊,優(yōu)化了token效率,特別適合長篇多模態(tài)任務(wù)。無論是多圖像輸入還是復(fù)雜文本解析,Llama Nano VL都能游刃有余。
訓(xùn)練Llama Nano VL的過程分為三個階段。首先,利用商業(yè)圖像和視頻數(shù)據(jù)集進行交錯式圖文預(yù)訓(xùn)練,為模型打下基礎(chǔ)。其次,通過多模態(tài)指令微調(diào)提升交互式提示能力,進一步增強模型的解析能力。最后,重新混合純文本指令數(shù)據(jù)以優(yōu)化在標準語言模型基準上的表現(xiàn)。這些步驟環(huán)環(huán)相扣,逐步提升了模型的精度和性能。
訓(xùn)練過程中,Llama Nano VL采用了英偉達的Megatron-LLM框架和Energon數(shù)據(jù)加載器,依托A100和H100 GPU集群完成。這些強大的硬件設(shè)備為模型的訓(xùn)練提供了充足的算力支持。在OCRBench v2基準測試中,Llama Nano VL在OCR、表格解析和圖表推理等任務(wù)上取得了領(lǐng)先精度。尤其在結(jié)構(gòu)化數(shù)據(jù)提?。ㄈ绫砀窈玩I值對)及布局相關(guān)問題解答中,其表現(xiàn)尤為突出,甚至媲美更大規(guī)模模型。
部署方面,Llama Nano VL設(shè)計靈活,支持服務(wù)器和邊緣推理場景。為了實現(xiàn)高效推理,英偉達提供了4-bit量化版本(AWQ),結(jié)合TinyChat和TensorRT-LLM。這種方案不僅兼容Jetson Orin等受限環(huán)境,還實現(xiàn)了高效的推理。
除了高效的推理方式,Llama Nano VL還支持Modular NIM(NVIDIA 推理微服務(wù))、ONNX和TensorRT導(dǎo)出。這意味著該模型可以被廣泛應(yīng)用于各種場景,無論是服務(wù)器還是邊緣設(shè)備,都能輕松部署。此外,英偉達還通過預(yù)計算視覺嵌入選項,進一步降低靜態(tài)圖像文檔處理的延遲,為企業(yè)應(yīng)用提供了實用解決方案。
總的來說,英偉達推出的Llama Nano VL是一款具有顛覆性的AI技術(shù)。它通過融合視覺和語言信息,優(yōu)化token效率,提升了多模態(tài)任務(wù)的解析精度和性能。其靈活的設(shè)計、高效的推理方式和實用的部署方案,為企業(yè)應(yīng)用提供了新的可能。未來,隨著該技術(shù)的進一步發(fā)展和完善,我們期待它在更多領(lǐng)域發(fā)揮重要作用,推動人工智能的發(fā)展。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )