多元場景需求下,游戲開發(fā)的 GPU 選型攻略

游戲市場正在不斷開發(fā)出新的場景需求,游戲開發(fā)團隊在傳統(tǒng)業(yè)務之外也都在打磨新的工作流,來應對高質量的游戲制作任務和短平快的 AI 游戲。這不可避免地涉及到生產力工具 GPU 的升級,而團隊都希望“花小錢,辦大事”,用一套高性價比的方案支撐起多元的應用場景和不同的工作流。

但目前 GPU 架構正在迭代,AI 工具、VR/AR 工具又以百花齊放的姿態(tài)不斷涌現(xiàn)出來,對于游戲開發(fā)團隊做 GPU 采購(一種中長期的投資)也帶來了挑戰(zhàn)和壓力。我們特地根據(jù)不同的任務需求,整理了一些 GPU 選型的關鍵要素和項目測試數(shù)據(jù),給大家做個選型攻略分享。

1、3D圖形類任務

任務涉及建模、材質、燈光、動畫、特效和渲染等。其中,渲染通常是性能要求最高的部分,我們可以根據(jù)開發(fā)項目中的中大型場景渲染需求,初步框定顯卡選型的范圍。需要注意的是,很多 3D 軟件并不支持多 GPU 渲染,所以單張顯卡的能力非常關鍵。

【需要特別關注的顯卡參數(shù)】

顯存容量:

較大的顯存可以支持更復雜和更大規(guī)模的場景,顯存容量太小則會導致建模操作不暢、渲染錯誤等情況。根據(jù)項目的測試情況來看,顯存 20GB 可以支持中型場景 4K 分辨率的渲染場景,如果是復雜場景 8K、16K 分辨率情況下,則需要顯存 32GB 以上。

GPU 架構、CUDA 核心與 RT 核心:

目前大多數(shù)團隊采用的是 NVIDIA Ampere 架構、NVIDIA Ada Lovelace 架構的 NVIDIA RTX? GPU。NVIDIA Ada 架構相比 NVIDIA Ampere 架構是更新一代的架構,性能更高。CUDA 核心數(shù)會影響并行計算能力,而 RT 核心則是專用于加速光線追蹤的核心,簡而言之,沒有 RT 核心則不支持光線追蹤。

是否 CUDA 核心數(shù)和 RT 核心數(shù)越多,性能就越高?

這里我們不得不強調,不同的 GPU 架構,采用的是不同代的核心,新一代的核心性能會比上一代的更強。如果在同一架構下,CUDA 核心和 RT 核心數(shù)越多,顯卡性能會更高。但在不同架構的顯卡中,就不能這么比較。

因此以目前的技術發(fā)展來說,建議直接采用 Ada 架構的 NVIDIA RTX GPU 來做圖形渲染,這樣更好做后期擴展。

圖形 API:

NVIDIA RTX 專業(yè)顯卡與消費級顯卡使用的是不同的驅動程序,NVIDIA RTX 專業(yè)顯卡的企業(yè)版驅動程序對于OpenGL 的優(yōu)化明顯更好,這對于團隊來說也是必須要考量的因素之一,如果團隊會需要執(zhí)行到復雜的 3D 模型和高精度 3D 場景的任務、VR/AR 沉浸式體驗場景,對效率與穩(wěn)定性要求高的情況下,專業(yè)顯卡能夠承擔的任務顯然會更多。

顯卡選型渲染測試:

有條件的情況下,我們盡量在購買前提前跑一跑項目測試,以匹配項目中可能遇到的一些特殊的需求。之前我們測試了市場上較為常用的 NVIDIA RTX 專業(yè)顯卡在一些中大型場景方面的跑分、渲染表現(xiàn),并且將 Ada 架構與Ampere 架構相應的顯卡作為對比,測試結果給大家做個參考:

適配于復雜場景的顯卡對比:

顯卡型號和參數(shù):

1.jpg*顯卡圖片來源于 NVIDIA

NVIDIA RTX A6000 顯卡作為 NVIDIA RTX 系列 Ampere 架構中的“卡皇”,被大家所熟知。目前該型號已停產。過往的測試結果了解到,NVIDIA RTX 5000 Ada 基于 Ada 架構的優(yōu)勢,圖形性能與 AI 性能都超過了 NVIDIA RTX A6000。

測試數(shù)據(jù)-跑分對比:

2.jpg

測試數(shù)據(jù)-渲染能力對比:

3.jpg

適配于中型場景的顯卡對比:

顯卡型號和參數(shù):

4.jpg*顯卡圖片來源于 NVIDIA

20GB 顯存可以滿足日常中型場景的要求,同時我們測試得出,NVIDIA RTX 4000 Ada 相比 NVIDIA RTX A4500 顯卡,性能上有所提升,同時單插槽卡的優(yōu)勢也非常大,對于我們后期機器的擴容很有幫助,性價比更高。

測試數(shù)據(jù)-跑分對比:

5.jpg

測試數(shù)據(jù)-渲染能力對比:

6.jpg

2、AI 類任務

任務通常涉及使用 AIGC 工具輔助生成角色、道具、場景等,同時訓練自有模型和開發(fā)數(shù)字人等交互式體驗,團隊通常傾向于本地化部署模式,模型訓練是算力性能要求較高的部分。

AI 任務測試參考:

擴散模型訓練與推理:對于 AIGC 生成任務,多數(shù)團隊采用 ComfyUI 來搭建工作流。我們以 Flux 模型訓練為例,F(xiàn)lux.1 dev 的 Lora 訓練中, 512*512 分辨率,bs為6時,學習率0.00005,步數(shù)為3000時,顯存已經(jīng)占用至29-30GB。而在FP16訓練中,相同的參數(shù)下,顯存占用約35-38GB。模型推理需要的 GPU 顯存建議以 16GB 起步,否則隨著模型的迭代發(fā)展和 AIGC 需求的增長,可能無法支撐未來較大規(guī)模的任務。

數(shù)字人開發(fā):數(shù)字人交互體驗類所涉及的工具鏈更為復雜。接入大語言模型做簡單問答是普遍需求,以接入DeepSeek 為例,簡單對話場景的推理可選擇7B、14B模型,建議顯存 30GB 及以上;32B 模型推理則需要約 96GB顯存來保證推理效率。如果涉及3D數(shù)字人制作,我們以使用過的 NVIDIA Omniverse Audio2Face 為例,在保證數(shù)字人運行流暢的情況下,需要 24GB 顯存以上的顯卡,才能達到 FPS 在30幀以上。

顯卡選型攻略:

單卡來說,更高的顯存意味著可以承載更大規(guī)模的模型,對于 AIGC 任務來說,在生成速度、分辨率、反應速度、生成質量上的優(yōu)勢更加明顯。此外,Tensor Core、單精度浮點運算性能也可以作為我們綜合考量顯卡 AI 能力的指標。

在單卡無法承載任務、或者需要多卡來加速任務的時候,我們需要插入多卡進行計算, 這時候卡間通信和功耗問題是不能忽視的。AI 工作站搭載 NVIDIA RTX 專業(yè)顯卡的方案具備P2P能力,通信效率會更高,并且專業(yè)顯卡功耗更低,能適配更多的機型。

綜合我們之前的測試情況,AI 類任務建議選擇的專業(yè)顯卡型號如下:

7.jpg

建議根據(jù)單卡能力、多卡運行能力、成本和效率、擴展性來綜合評估最終的方案。并在購置之前,盡量提前能夠做些測試。

3、總結建議

開發(fā)任務的規(guī)模如果涉及到高精度、大規(guī)模AI訓練推理的需求,可以通過選擇購置“多面手” 顯卡,譬如 NVIDIA RTX 5000 Ada 來做支撐,用武之地更多,性價比就更高。

而對于中小型的開發(fā)項目,所涉及的精度和 AI 需求都不高,推薦前期采用 NVIDIA RTX 4000 Ada 這種單插槽顯卡,成本可控,穩(wěn)定性高,既能滿足日常的開發(fā)需求,又容易在后期做擴展。

篇幅有限,上述測試數(shù)據(jù)具體內容及更多咨詢規(guī)劃類問題,均可點擊下方鏈接獲取。

顯卡測試申請及方案咨詢

https://rlzqlo1asm.feishu.cn/share/base/form/shrcnCbOVoltOXPQjFxveqrrIQb

8.jpg*與NVIDIA產品相關的圖片或視頻(完整或部分)的版權均歸NVIDIA Corporation所有。

技術支持

9.jpg

10.jpg

11.jpg

12.jpg

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2025-04-24
多元場景需求下,游戲開發(fā)的 GPU 選型攻略
游戲市場正在不斷開發(fā)出新的場景需求,游戲開發(fā)團隊在傳統(tǒng)業(yè)務之外也都在打磨新的工作流,來應對高質量的游戲制作任務和短平快的 AI 游戲。

長按掃碼 閱讀全文