中科深智實現(xiàn)生成式AI游戲場景落地

生成式AI正展現(xiàn)巨大潛能,其在各行業(yè)的落地和應用也正在迅速加速。

作為國內生成式AI虛擬人技術領導者,中科深智憑借自身的技術積淀和在 NVIDIA NeMo、Omniverse等技術 的幫助下,成功推出虛擬人實時交互和應答系統(tǒng)——云小七,這也是加入 NVIDIA初創(chuàng)加速計劃與 NVIDIA 深入技術交流與合作的成果之一。同時,中科深智將自有大模型GenSense數(shù)智姜尚引入游戲行業(yè),支持智能NPC(也即虛擬人)的批量化生產,提升游戲開發(fā)效率。

云小七除了可以讓NPC具備個性化特征,還能夠在不需要編寫復雜腳本的情況下,與游戲玩家進行順暢的文字、語音、動作、表情等多模態(tài)的實時互動。這將為游戲開發(fā)商帶來更加有力的支持,同時也為玩家提供更加生動、真實的游戲體驗。

http://www.picoinsstore.com/uploadfile/pic2020/2023/0605/2023060510002043G.png

云小七底層的文字對話能力,來自于中科深智在5月10日推出的自有大語言模型GenSense數(shù)智姜尚。數(shù)智姜尚是國內商用大模型在輕量化領域內的首次嘗試,其200億和20億兩種參數(shù)量的大模型,占用資源相對于傳統(tǒng)技術更少,推理甚至只需要一塊NVIDIA GeForce RTX 3090顯卡便能良好運行。

NVIDIA NeMo在數(shù)智姜尚的訓練過程中提供了低門檻、經(jīng)濟高效的幫助。NVIDIA NeMo是一個用于構建最先進對話式AI模型的工具包,為LLM的預訓練、自然語言處理(NLP)、自動語音識別(ASR)和文本到語音(TTS)合成模型提供單獨的集合。對于LLM的部分, NVIDIA NeMo Framework提供了多個可選擇的預訓練模型,包括幾十億參數(shù)的中等體量和最大的AI單體Transformer語言模型(MT-NLG 5300億)。這些預訓練模型能夠大幅縮短后續(xù)基于該模型的微調和再訓練的時間。

在高效訓練框架 NVIDIA NeMo Framework的助力下,數(shù)智姜尚的最終呈現(xiàn)為專門針對虛擬人端到端應用而設計的模型,具有輕量級、可私有化部署等優(yōu)勢,服務于中科深智下游客戶。同時,NeMo Framework提供的NeMo Guardrails工具幫助中科深智高效解決對話式AI合規(guī)性和安全性的風險。NeMo Guardrails為對話設置了響應范圍邊界,使其回答范圍僅限于適當?shù)闹黝}并僅提供必要的信息,并限制AI只與已確認安全的第三方應用程序建立聯(lián)系。

NeMo框架中的ASR/TTS模型進一步提高了云小七對于音頻輸入和輸出響應的實現(xiàn)效率。云小七嵌入在中科深智自身技術底座之上,支持與用戶進行實時的語音交流,從而實現(xiàn)了多種交互模式的無障礙切換。

http://www.picoinsstore.com/uploadfile/pic2020/2023/0605/2023060510002044G.png

云小七的核心能力之一還包括中科深智自研實現(xiàn)的CLAP大模型算法(Contrastive Language-Action Pre-Training,對比性語言-動作預處理模型),這種算法可以實現(xiàn)對于語音、語義以及外部環(huán)境輸入的實時反饋,從而輸出動作和表情等,使得NPC具有更加生動的表現(xiàn)能力。此外, NVIDIA Omniverse中的 Audio2Face也可以輔助云小七實現(xiàn)音頻輸入的面部輸出,通過預訓練的深度神經(jīng)網(wǎng)絡、調整角色網(wǎng)格的3D頂點等方式,實現(xiàn)快速表情切換。

為了實現(xiàn)更加自然的動作反饋生成以及動作和空間關系的獨立實現(xiàn),云小七采用了CLAP算法,并支持基于語義、音樂和連續(xù)動作等多種生成方式。

在游戲環(huán)境中,云小七能夠識別并及時反應,這得益于其自身的意圖識別能力以及 NVIDIA Maxine對于音頻和視頻通信方面的優(yōu)化。即使使用普通的麥克風和攝像頭,NPC也能夠與玩家實現(xiàn)實時互動。

http://www.picoinsstore.com/uploadfile/pic2020/2023/0605/2023060510002045G.png

http://www.picoinsstore.com/uploadfile/pic2020/2023/0605/2023060510002046G.png

至此,再加上中科深智的超寫實虛擬人生成系統(tǒng)Anyhuman(支持快速創(chuàng)建并導出高精度數(shù)字人)的協(xié)同助力,一個實現(xiàn)了超寫實虛擬人形象、文本和語音實時交互、對外部環(huán)境輸入實時感知并轉化為動作和表情反饋的NPC終于問世。

這些后續(xù)功能基于生成式AI的設計,可以通過賦予特定的人設,如形象、聲音、性格特征、背景等等,來與游戲內容有機融合。鑒于這一創(chuàng)新,中科深智預測這將完全改變玩家與游戲角色互動的方式,提高游戲的沉浸感,讓普通玩家也能更快地探索元宇宙的奧秘。

關于中科深智

中科深智是一家專注于端到端生成式AI虛擬人技術的公司,從底層自研的大語言模型、動作和表情生成算法模型以及3D自動建模 ,到Motionverse虛擬人業(yè)務中臺,再到3D AIGC產品和應用層。中科深智除了為生態(tài)合作伙伴提供AI虛擬人API外,還開發(fā)了一系列3D AIGC產品,包括超寫實虛擬人生成系統(tǒng)Anyhuman、元宇宙電商和虛擬人直播工具百寶箱自動播、AI快速動畫生成系統(tǒng)自動畫、虛擬人實時交互和應答系統(tǒng)云小七

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )