《日常生活中的自我呈現(xiàn)》一書中,歐文?戈夫曼將戲劇表演引入社會(huì)學(xué)。他提出,人們?cè)谌粘;?dòng)里,會(huì)依照預(yù)設(shè)的“劇本”(即社會(huì)規(guī)范),借助行為管理進(jìn)行表演,在他人心中留下良好印象。
按照這個(gè)理論,數(shù)字人直播總被吐槽,原因就是數(shù)字人的演技太差,無法呈現(xiàn)出真人主播一樣的觀感,表情僵硬、手勢(shì)不自然,無法給大眾留下好印象。
就在最近,數(shù)字人主播界突然出現(xiàn)了一位演技實(shí)力派——羅永浩。羅永浩數(shù)字人在百度電商的首場直播,以長達(dá)連續(xù)近7小時(shí)的高強(qiáng)度直播,實(shí)時(shí)解答彈幕問題,動(dòng)輒輸出“羅式段子”,還與助播朱蕭木互相拋梗接梗,刷新了大眾心中數(shù)字人的觀感。
甚至有人問老羅,“是不是你在扮演數(shù)字人”,簡直倒反天罡。
難辨真假、技驚四座的羅永浩數(shù)字人,到底是怎么實(shí)現(xiàn)的?6月17日的百度AI開放日慧播星專場現(xiàn)場,百度集團(tuán)副總裁吳甜,揭秘了羅永浩數(shù)字人背后的技術(shù)秘密。最關(guān)鍵的就是,基于文心大模型4.5T的“劇本”生成與多模協(xié)同。
618硝煙正燃,而一場以AI大模型為核心驅(qū)動(dòng)的電商效率革命,正拉開序幕。
大家有沒有這樣的經(jīng)歷:
評(píng)論區(qū)的彈幕太多,留言總是得不到主播的回復(fù);
想看直播,但真人主播已經(jīng)下班了,錯(cuò)過了專屬紅包和優(yōu)惠;
自己直播帶貨,但一面對(duì)鏡頭就緊張,直播效果不盡如人意;
等頭部主播來助農(nóng)直播,還得看對(duì)方的差旅安排和時(shí)間調(diào)配……
數(shù)字人被視為解決人力局限、實(shí)現(xiàn)全天候直播的理想方案。然而,以往的數(shù)字人一直無法惟妙惟肖地飾演真人主播,槽點(diǎn)主要集中在幾個(gè)方面:
演得不像。數(shù)字人的表情、手勢(shì)與肢體細(xì)節(jié)與文案對(duì)不上,產(chǎn)生“恐怖谷”效應(yīng),讓觀眾感到詭異。
缺少互動(dòng)。傳統(tǒng)數(shù)字人面對(duì)超出預(yù)設(shè)范圍的問題,無法像真人主播那樣靈活應(yīng)對(duì),只能唱“獨(dú)角戲”,讓觀眾喪失了參與直播的積極性與體驗(yàn)感。
時(shí)長不夠。很多數(shù)字人只能將短視頻循環(huán)播放,難以支撐長時(shí)間且一致的內(nèi)容生成與交互需求,低質(zhì)量內(nèi)容不僅影響用戶體驗(yàn),還可能被平臺(tái)限流甚至處罰。
行為不可控。數(shù)字人一旦出現(xiàn)失誤,不僅會(huì)損害品牌形象,還可能引發(fā)輿論危機(jī),這也是許多頭部主播和品牌對(duì)數(shù)字人直播持謹(jǐn)慎態(tài)度的重要原因。
數(shù)字人扮演真人主播,需要跨越重重技術(shù)挑戰(zhàn)。那百度電商直播間的羅永浩,又憑啥成為直播“實(shí)力派”?
6月15日羅永浩數(shù)字人在百度電商,完成了數(shù)字人主播的極限挑戰(zhàn),做到了不少業(yè)內(nèi)首個(gè)。
業(yè)內(nèi)首個(gè)超級(jí)頭部主播數(shù)字人直播。羅永浩的粉絲特別多,對(duì)真人主播的風(fēng)格十分熟悉,需要數(shù)字人有極高的還原度。數(shù)字人羅永浩在直播間妙語連珠,與觀眾高頻互動(dòng),舉手投足間散發(fā)著熟悉的羅氏魅力。
業(yè)內(nèi)首個(gè)超六小時(shí)超頭部主播數(shù)字人直播,突破了AI視頻生成極限時(shí)間,生成的產(chǎn)品講解內(nèi)容就多達(dá)9.7萬字。
業(yè)內(nèi)首個(gè)多數(shù)字人直播,雙人配合,告別了一個(gè)數(shù)字人尬聊的局面。羅永浩和朱蕭木的搭檔,高度還原了真實(shí)主播與助播的直播狀態(tài)。兩個(gè)數(shù)字人主播能做出喝奶茶、拎可樂等細(xì)節(jié)動(dòng)作,還實(shí)現(xiàn)了與直播間用戶彈幕的實(shí)時(shí)互動(dòng)。
這一系列操作下來,刷新了不少人對(duì)數(shù)字人的固有印象。而羅永浩數(shù)字人的誕生,只用了幾個(gè)月的時(shí)間,究竟是如何習(xí)得媲美真人的“直播神技”?我們扒開了數(shù)字人背后的一整個(gè)大模型“導(dǎo)師團(tuán)”。
一場精彩的數(shù)字人直播,絕非單一技能的炫技。想象一下,如果數(shù)字人語言表達(dá)生動(dòng)流暢,卻搭配著僵硬機(jī)械的表情和動(dòng)作,或是語音語調(diào)平淡乏味,如同 “讀稿機(jī)器”。這正是傳統(tǒng)數(shù)字人技術(shù)的痛點(diǎn):語言依賴臺(tái)詞模型,語音靠TTS 合成,表情肢體等視覺表現(xiàn)由視頻合成,各模態(tài)模型“各自為政”。數(shù)字人的臺(tái)詞、表情、動(dòng)作完全不在一個(gè)節(jié)奏上,觀眾瞬間就會(huì)“出戲”。
作為業(yè)內(nèi)首個(gè)多模高度融合數(shù)字人,羅永浩數(shù)字人的出色表現(xiàn),正是得益于百度多模協(xié)同的數(shù)字人技術(shù)。
按照歐文?戈夫曼的理論,“劇本”是戲劇表演的核心,演員需依劇本塑造符合期待的形象。數(shù)字人領(lǐng)域,“劇本”同樣是關(guān)鍵所在。
擁有一個(gè)高質(zhì)量的劇本,就如同數(shù)字人有了總指揮,讓語言、語音、視覺等不同模態(tài)圍繞劇本,彼此協(xié)同配合,才能讓數(shù)字人在直播中展現(xiàn)出渾然天成的表現(xiàn)力。
以數(shù)字人羅永浩為例,背后就有一個(gè)文心大模型的“導(dǎo)師團(tuán)”進(jìn)行助力:
首先,是基于大語言模型的劇本生成。
生成劇本的文心大模型,相當(dāng)于總導(dǎo)演兼總編劇,通過臺(tái)詞,為數(shù)字人賦予生動(dòng)鮮活的“靈魂”。拿羅永浩數(shù)字人來說,文心大模型4.5T需要攻克以下關(guān)鍵難題。其一,風(fēng)格定制。羅永浩犀利幽默、朱蕭木風(fēng)趣灑脫,每位主播都有獨(dú)特的語言風(fēng)格,文心大模型通過風(fēng)格建模,深度學(xué)習(xí)主播們的語言習(xí)慣、表達(dá)方式,從遣詞造句到語氣節(jié)奏,全方位貼合主播個(gè)人風(fēng)格進(jìn)行定制,在模型生成的臺(tái)詞中精準(zhǔn)復(fù)現(xiàn),讓數(shù)字人開口自帶主播“味道”。
除了語言風(fēng)格,人設(shè)一致也是數(shù)字人獲得觀眾認(rèn)可的關(guān)鍵。特別是在多角色配合時(shí),羅永浩作為主咖,朱蕭木作為助播,文心大模型在生成劇本時(shí),精準(zhǔn)把握二人特點(diǎn)與分工,使臺(tái)詞在語言上自然附和、緊密配合。比如在產(chǎn)品推薦環(huán)節(jié),主播重點(diǎn)介紹核心賣點(diǎn),助播適時(shí)補(bǔ)充細(xì)節(jié)、引導(dǎo)互動(dòng),一問一答、一唱一和,展現(xiàn)出符合人設(shè)的行為與語言邏輯。
在文心大模型 4.5T的精心雕琢下,生成了既有真人溫度,高度還原主播個(gè)人特色,又有網(wǎng)感,能將商品賣點(diǎn)生動(dòng)展現(xiàn)的直播劇本。
接下來,就是“劇本圍讀”,讓多模態(tài)系統(tǒng)基于劇本,進(jìn)行信息對(duì)齊。
語音大模型作為口語導(dǎo)師,視覺大模型作為動(dòng)作導(dǎo)師,先根據(jù)大語言模型生成的語音標(biāo)簽和視覺標(biāo)簽,然后生成協(xié)調(diào)一致的語音和表情動(dòng)作,賦予數(shù)字人影帝、影后般的表現(xiàn)力。
這個(gè)過程的難點(diǎn),是多個(gè)模型的對(duì)齊。想象一下,如果語音模型理解的臺(tái)詞情感激昂,而視覺模型呈現(xiàn)的卻是平淡表情,數(shù)字人就會(huì)“表里不一”,讓觀眾倍感違和。百度AI數(shù)字人,以大模型生成的劇本為統(tǒng)一標(biāo)尺,確保從臺(tái)詞到語音、從表情到動(dòng)作,各環(huán)節(jié)的理解與執(zhí)行步調(diào)一致。
比如羅永浩與助播數(shù)字人之間,會(huì)出現(xiàn)頻繁的打斷說、同時(shí)說,需要語音合成系統(tǒng)精準(zhǔn)捕捉對(duì)話節(jié)奏。百度通過加入對(duì)話上下文解碼器,整合歷史對(duì)話與當(dāng)前信息,讓數(shù)字人在互動(dòng)時(shí)的語音銜接自然流暢,重現(xiàn)真人搭檔的默契感。
同時(shí)還建立了反向?qū)R的反饋機(jī)制,也就是語音模型合成后,會(huì)基于自身對(duì)文本的細(xì)粒度判斷進(jìn)行優(yōu)化,再將這些信息反饋給視覺模型,實(shí)現(xiàn)音畫間的精準(zhǔn)匹配,形成一個(gè)閉環(huán)的協(xié)同體系。
通過多模系統(tǒng)的“劇本圍讀”,可以在劇本指引下,完成聲臺(tái)行表的默契配合,讓數(shù)字人在直播鏡頭前展現(xiàn)出媲美真人的表現(xiàn)力,為觀眾帶來沉浸式的觀看體驗(yàn)。
六七個(gè)小時(shí)的直播,數(shù)字人只能對(duì)著劇本“照本宣科”嗎?為什么數(shù)字人羅永浩還能在直播間跟用戶實(shí)時(shí)互動(dòng)呢?這就要提到第三個(gè)關(guān)鍵能力:臨場發(fā)揮的靈活性與可控性。
據(jù)吳甜介紹,數(shù)字人直播就像拍電影,演員的表演并不是照本宣科,要有對(duì)劇本的理解和臨場發(fā)揮。
其中,劇本作為核心,確保數(shù)字人行為邏輯的一致性,而文心大模型則賦予其應(yīng)對(duì)復(fù)雜場景的“應(yīng)變力”和長時(shí)間的可控性。
在時(shí)長如馬拉松式的直播中,現(xiàn)實(shí)場景的復(fù)雜性遠(yuǎn)超想象。用戶突如其來的刁鉆提問,直播間場景內(nèi)人物、商品、環(huán)境的自由交互,都暗藏著不可控因素。讓數(shù)字人在復(fù)雜交互場景中也能游刃有余,文心大模型是這場技術(shù)突圍的“智慧中樞”。
一方面,依托大模型的語言理解與生成能力,結(jié)合直播場景的高頻需求進(jìn)行針對(duì)性訓(xùn)練,賦予數(shù)字人實(shí)時(shí)理解用戶意圖的“洞察力”。在羅永浩數(shù)字人直播中,AI知識(shí)庫1.3萬次的調(diào)用,9.7萬字的內(nèi)容生成,正是文心大模型強(qiáng)大創(chuàng)造能力的直觀體現(xiàn)。
另一方面,依托文心大模型4.5T的深度思考能力,在劇本生成時(shí)先進(jìn)行規(guī)劃和思考,搜索最優(yōu)路徑,再通過評(píng)價(jià)和評(píng)估,提升最終的可控性。
當(dāng)數(shù)字人在直播間自如切換講解模式、巧妙化解突發(fā)提問,與用戶深度互動(dòng),背后正是多文心大模型在持續(xù)穩(wěn)定地發(fā)揮作用,為數(shù)字人直播行業(yè)開辟出長時(shí)、靈活、可控、優(yōu)質(zhì)的全新賽道。
總結(jié)一下,羅永浩數(shù)字人直播的成功,離不開百度大模型技術(shù)體系的托舉,也是百度大模型技術(shù)實(shí)力的具象化呈現(xiàn)。
歐文?戈夫曼的“擬劇理論”成為社會(huì)學(xué)經(jīng)典,在于其揭露了社會(huì)協(xié)作的基礎(chǔ)——每個(gè)人依據(jù)劇本扮演良好形象,教師扮演好傳道授業(yè)的角色,醫(yī)生恪守救死扶傷的職責(zé),整個(gè)社會(huì)才能有序運(yùn)轉(zhuǎn)。
當(dāng)直播行業(yè)走過野蠻生長的黃金期,流量紅利消退,主播需要扮演什么樣的角色呢?或許是專業(yè)導(dǎo)購,能夠?qū)Ξa(chǎn)品細(xì)節(jié)和專業(yè)知識(shí)娓娓道來;是貼心客服,及時(shí)響應(yīng)用戶的每一個(gè)疑問;是知心朋友,在用戶需要的時(shí)候提供全天候陪伴……這樣才能與觀眾建立信任紐帶,走向高質(zhì)量發(fā)展。
專業(yè)且敬業(yè)的真人主播,培養(yǎng)不易,開播成本也是中小商家所無力負(fù)擔(dān)的。這時(shí)候,AI數(shù)字人的技術(shù)革命,成為打破直播效率困局的關(guān)鍵。
在大廠紛紛布局?jǐn)?shù)字人,競爭白熱化的背景下,百度依然憑借AI技術(shù)優(yōu)勢(shì),構(gòu)建起數(shù)字人的差異化能力:
一是先進(jìn)。百度數(shù)字人直播的技術(shù)能力如劇本生成、多模驅(qū)動(dòng)、一致性和高擬真性等,是業(yè)界天花板。對(duì)數(shù)字人技術(shù)要求苛刻的超級(jí)頭部主播來說,選擇百度數(shù)字人放大IP價(jià)值,用自身的專業(yè)能力24小時(shí)服務(wù)用戶。
二是專精。當(dāng)部分企業(yè)投入海量資源研發(fā)通用型視頻生成技術(shù)時(shí),百度深耕數(shù)字人直播場景,推出的慧播星數(shù)字人系統(tǒng)已服務(wù)超10萬商家,覆蓋32個(gè)垂直行業(yè)。對(duì)中小商家來說,通過百度數(shù)字人可以輕松開播,品嘗到AI技術(shù)帶來的增長紅利。
三是性價(jià)比。借助百度AI技術(shù),品牌商家可獲得“人貨場”的全面助力,除了數(shù)字人,還可以利用AI技術(shù)對(duì)商品進(jìn)行深度分析和理解,實(shí)現(xiàn)商品的智能管理和精準(zhǔn)營銷。提升收益的同時(shí),百度數(shù)字人的綜合成本比真人主播要低,而且隨著開播的場次越多,它的邊際收益越高,未來數(shù)字人的生產(chǎn)制作成本還會(huì)進(jìn)一步的下降。
這場從流量爭奪到技術(shù)深耕的變革,正在重新定義直播行業(yè)的未來。當(dāng)數(shù)字人頂流登上直播舞臺(tái),百度AI驅(qū)動(dòng)的直播下半場,也是智能電商的新篇章。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 華為助力全球運(yùn)營商加速發(fā)展5G-A,共筑AItoX新價(jià)值
- 華為汪濤:解鎖5G-A潛能,共贏移動(dòng)AI時(shí)代
- 美團(tuán)讓618靜悄悄,京東淘寶無力反擊
- 泡泡瑪特,并不僅僅只是泡泡瑪特
- 設(shè)六大驚喜日+聯(lián)動(dòng)“蘇超”送福利,京東618多重狂歡引爆消費(fèi)
- 京東618帶火四大消費(fèi) 即時(shí)零售和生活服務(wù)迎來爆發(fā)
- 羅永浩數(shù)字人刷屏背后,文心大模型成為直播行業(yè)的“劇本總導(dǎo)演”
- 京東618帶火四大消費(fèi) 即時(shí)零售和生活服務(wù)迎來爆發(fā)
- 京東618:京東外賣全職騎手超12萬,外賣與現(xiàn)有零售協(xié)同效應(yīng)顯著
- 軍火出口市場兩個(gè)讓人意外的國家,國人看不起,卻受他國歡迎
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。