AIGC落地應用:騰訊云如何助力產業(yè)智能化升級?

在過去一年,AIGC 以星星之火,點燃全球燎原之勢。如今巨變仍在進行,各行各業(yè)積極擁抱技術變革,帶來諸多智能應用創(chuàng)新。然而開發(fā)者在實際落地 AIGC 的過程中,如何做技術選型?如何將前沿技術有效地融入現(xiàn)有業(yè)務流程,兼顧實用性和用戶體驗?如何加快前沿技術落地,進而推動產業(yè)升級?

6 月 15 日, 由騰訊云 TVP 與 CSDN 聯(lián)合主辦的「 AIGC 落地的正確姿勢 —— Techo TVP 技術沙龍」活動在上海舉辦,本次沙龍匯聚 AI 領域產學研優(yōu)秀代表、技術大咖,聚焦 AIGC落地思考與應用實踐,分享最新、最實用的案例,一同探討如何加快 AI 應用的創(chuàng)新步伐。

從科研到實踐的深度探索

數(shù)智人“嬌嬌”全解析

上海交通大學電子工程系教授&圖像所副所長、騰訊云 TVP 宋利

未來已來,數(shù)字人已滲透到各行各業(yè),成為新一代的生產力和創(chuàng)造力。從科研到實踐,數(shù)智人“嬌嬌”的誕生,既是技術的集成展示,也是對個性化、互動性未來的創(chuàng)新探索。

上海交通大學電子工程系教授&圖像所副所長、騰訊云 TVP 宋利在《科研到落地:“數(shù)智人-嬌嬌”》的演講中,先是回顧近五年來數(shù)字人技術的演變歷程,梳理當前數(shù)字人技術的前沿進展,如基于語音驅動的運動穩(wěn)定的數(shù)字人視頻合成,基于顯式、隱式記憶增強的語音驅動數(shù)字人合成,身份匹配對應學習的高保真人臉驅動,基于解耦潛在運動表征的高保真數(shù)字人驅動、高保真音頻驅動的歌唱數(shù)字人合成等創(chuàng)新研究。

不僅探索學術研究,宋教授還帶領團隊積極進行技術落地,推出數(shù)智人“嬌嬌”項目。“嬌嬌”以一位擅長直播的同學為原型,通過拍攝綠幕視頻并結合聲音數(shù)據(jù)進行訓練而成,“嬌嬌”可以進行對話聊天、口播、歌曲演唱、新聞播報、健康顧問、多語種口譯等工作。“嬌嬌”不僅體現(xiàn)了數(shù)字人在娛樂、教育等領域的廣泛應用潛力,還作為首個高校虛擬數(shù)字人主播,引發(fā)廣泛關注。

如今數(shù)字人向更廣泛的商業(yè)和社會應用場景邁進,與此同時,數(shù)字人行業(yè)存在政策風險和商業(yè)模式不確定性等挑戰(zhàn)。在宋教授看來,盡管 ToC 市場吸引力大,但 ToB 領域因成本效益和應用深度,展現(xiàn)出更大的商業(yè)潛力。數(shù)字人處于快速發(fā)展中,不僅在形象創(chuàng)造上不斷進步,也在向更復雜的動作、情感交互等方向探索。展望未來,結合高質量的交互能力將是未來數(shù)字人發(fā)展的重要方向。

騰訊混元大模型賦能AIGC應用落地

推進產業(yè)智能化升級

騰訊云大模型產品專家 屈蕾

騰訊混元大模型歷經迭代日趨成熟,堅持全鏈路自主研發(fā)技術,支持眾多場景的創(chuàng)新應用,實現(xiàn)技術與應用同行,期待更多開發(fā)者與企業(yè)加入,共創(chuàng)大模型應用新紀元。

騰訊云大模型產品專家 屈蕾在《騰訊混元大模型全場景 AIGC 應用實踐》的主題演講中介紹,騰訊混元大模型是騰訊全鏈路自主研發(fā)的通用大語言模型,自 2023 年 9月上線以來,經歷多輪迭代,騰訊混元大模型不斷成長、性能不斷提升,現(xiàn)已擁有萬億級參數(shù)規(guī)模,從稠密模型架構向稀疏化架構演進,孵化不同的模型形態(tài),采用混合專家模型 (MoE) 結構,提高訓練和推理效率及專業(yè)領域適應性,具備強大的中文創(chuàng)作能力。

騰訊混元大模型構建三層自主可控的國產大模型全棧技術架構:上層為自研高速網絡互聯(lián)來支撐模型訓練,預計 2024 年將達到單集群 10 萬卡規(guī)模,低端卡也能訓練萬億參數(shù)大模型;中層為自研 Angel 大模型訓練和推理平臺,可高效調度異構卡集群,將萬億大模型的推理成本較開源模型下降 70%,并持續(xù)優(yōu)化;底層是采用混合專家模型 (MoE) 結構。

騰訊混元大模型在 SuperClue 和沙利文報告等第三方測評中獲得高度評價,效果居于國內第一梯隊。目前混元大模型已接入 600+ 騰訊內部業(yè)務,其應用場景廣泛,如騰訊文檔 AI 智能助手輔助文案創(chuàng)作、騰訊會議 AI 小助手自動總結、智能數(shù)字人和游戲 npc 的角色扮演能力增強用戶體驗、AI 代碼生成等,實現(xiàn)技術與應用同行,充分釋放生產力。

此外,騰訊混元大模型在多模態(tài)能力上也持續(xù)迭代升級。在生圖領域,騰訊混元文生圖基礎架構已全面升級至 Sora 同款的 DiT 架構,支持中英文雙語輸入及理解,具備多輪繪圖能力,測評結果國內領先;在生視頻領域,騰訊混元支持文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力,已經支持 16s 視頻生成;在生 3D 層面,騰訊混元已布局文/圖生 3D,單圖僅需 30 秒即可生成 3D 模型。

目前,騰訊混元大模型多模態(tài)能力已通過騰訊云以 API 形式面向企業(yè)用戶和開發(fā)者開放,在廣告、電商、傳媒、游戲、教育等不同行業(yè)落地應用。其中,混元生文提供了萬億參數(shù) hunyuan-pro、千億參數(shù) hunyuan-standard、百億參數(shù) hunyuan-lite等多種尺寸的模型服務,期待更多伙伴與開發(fā)者加入,共同探索大模型的邊界與新應用場景,攜手推進大模型技術創(chuàng)新發(fā)展。

解讀QQ影像中心AIGC創(chuàng)新與實踐

釋放AI無限潛力

QQ專家算法研究員 程培

面對日新月異的 AIGC 技術發(fā)展,QQ 構建 AIGC 技術體系,持續(xù)推出系列創(chuàng)新工具和應用,賦能用戶個性化內容創(chuàng)造,積極探索 AIGC 的廣泛應用潛力與價值。

QQ 專家算法研究員 程培在《QQ 影像中心 AIGC 的創(chuàng)新和應用》的分享中談到,目前 QQ 在基礎層,打造出語言以及圖文大模型、3D 生成大模型;在組件層,擁有圖片/視頻生成技術,3D 數(shù)字資產生成技術;在應用層,QQ 相機、小程序、天天 P 圖、超級 QQ 秀等均已融入 AIGC 技術。

QQ 影像中心在幾年前開始部署研究 AIGC 技術,目前取得一些進展:Diffusion 模型廣受熱議,然而在落地的過程中,面臨畫面構圖不穩(wěn)定、語義質量差等效果瓶頸,優(yōu)質結果生成投入成本高等性能瓶頸。早在 2022 年,程培團隊針對 Diffusion 模型進行優(yōu)化,從 0 到 1 搭建“優(yōu)化-選型-生產-上線”流程,持續(xù)進行風格效果訓練積累,積累風格超 20 種。最終將優(yōu)化后的技術應用到 QQ 小世界 520 活動上,得到用戶的熱烈討論與關注。QQ 作為國內最早一批上線這類創(chuàng)新 AIGC活動,例如熱門特效 “異次元的我”,用戶只需上傳一張自己的照片,就能通過 AI 識別,一鍵生成與自己十分相像的漫畫圖片,當時的傳播率極高。

AI 寫真照最初用戶的使用門檻高,需要用戶上傳多張不同角度的照片,還要在線訓練,對機器資源消耗較大,且可能影響用戶體驗。如何在不進行后置微調的情況下,只給一張人像照,讓 Diffusion 模型具備人臉 ID 的保持、變化、風格化等能力,使得模型的生成結果具備多樣性。對此,騰訊推出 FaceStudio,通過先進的混合人臉 ID 引導機制,在不犧牲個人身份特征的情況下,實現(xiàn)風格化的人物圖像合成。這項技術成功應用在 QQ 頭像定制館、七夕頭像等活動。

大多數(shù)擴散模型使用 CLIP 作為文本編碼器,這將可能限制它們理解復雜提示的能力,對此騰訊推出 ELLA,可將 LLM 與擴散模型無縫結合,將 LLM 能力注入擴散模型,提升現(xiàn)有文生圖模型語義匹配程度,還可輕松集成社區(qū)模型和工具,兼容社區(qū)生態(tài)。并進一步研發(fā) EMMA 框架,解決角色一致性生成問題,使同一人物在不同場景中保持一致,實現(xiàn)連貫的視覺敘事。

在視頻生成上,實現(xiàn)穩(wěn)定且風格強烈的視頻內容生成,展現(xiàn)在多人及單人場景中的良好應用效果,目前團隊將相關算法落地在 QQ 短視頻開發(fā)者開放平臺。在 3D 生成上,打造超 Q 服飾紋理生成系統(tǒng),落地超 Q 秀業(yè)務,給用戶帶來嶄新體驗。

開發(fā)者如何擁抱AI 2.0時代?

易編橙網絡科技 CTO、「程序員 : 職場效能必修寶典」作者 田杰

開發(fā)者積極擁抱 AI 2.0時代,通過在 AIGC 工具層與應用層創(chuàng)新,在細分領域創(chuàng)造價值,無需畏懼被技術替代,致力成為利用 AI 提升業(yè)務與個人競爭力的先行者。

易編橙網絡科技 CTO、「程序員 : 職場效能必修寶典」作者 田杰在《開發(fā)者如何擁抱AI 2.0 時代》中指出,隨著 AIGC 的興起,普通開發(fā)者面臨被技術替代的焦慮,但同時存在轉型與機遇。田杰通過分析最新行業(yè)動態(tài)、市場數(shù)據(jù)等,幫助開發(fā)者理清思路,鼓勵開發(fā)者把握 AIGC 新機遇,通過持續(xù)學習和創(chuàng)新,成為 AIGC 的弄潮兒。

田杰鼓勵開發(fā)者不應局限于傳統(tǒng)編程語言的學習,更應關注如何結合 AI 技術提升個人競爭力,利用智能體為用戶提供更高效、個性化的服務。他表示,“所有的 App 應用都值得用 AI 重新做一遍,這就是應用級開發(fā)者的機會”。盡管大型科技公司正積極布局大模型市場,但對于小型企業(yè)和個人開發(fā)者而言,專注于細分領域、創(chuàng)新業(yè)務模式和應用場景,利用好信息差和快速反應能力,如高考志愿填報助手等,通過快速響應市場需求和提供定制化解決方案, 實現(xiàn)技術與市場的有效對接。

結語

隨著 AI 技術飛速發(fā)展,AIGC 正從概念走向廣泛的應用實踐,為各行各業(yè)帶來前所未有的創(chuàng)新變革。在本次「 AIGC 落地的正確姿勢 —— Techo TVP 技術沙龍」,五位技術大咖從多角度分享前沿、多元的 AIGC 親身實踐,為開發(fā)者帶來諸多啟發(fā)。在各位嘉賓的精彩分享下,本次活動圓滿落幕。

未來,騰訊云 TVP 將繼續(xù)攜手更多專家大咖,為開發(fā)者朋友分享更多干貨技術和前沿洞察、落地實踐,獻上一場場精彩有料、有趣、有用的技術盛宴。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )