打破交互困局:科大訊飛這樣出手

2025年6月12日,科大訊飛在深圳成功舉辦“交互引領(lǐng) 智啟新章”的智能交互產(chǎn)品升級發(fā)布會。

當前,交互行業(yè)正經(jīng)歷著智能化的躍遷,但依然面臨三大核心挑戰(zhàn):多模態(tài)融合不足、垂直場景適配率低、實時交互延遲高。

應對行業(yè)的交互困境,科大訊飛一口氣發(fā)布多款平臺與應用:AIUI開放平臺更新,新增模板智能體開發(fā),全鏈路交互貫穿三方知識庫和私有模型;適用兒童交互的童言識別引擎登場;三麥陣列降噪的智能眼鏡能快速分析需求,實時翻譯;機器人超腦平臺再升級,智能語音背包實現(xiàn)即插即用;“一張照片+5分鐘”生成你的數(shù)字分身?科大訊飛推出的虛擬交互平臺支持82種語言生成。

大會現(xiàn)場,科大訊飛還推出了面向辦公、人力與企業(yè)數(shù)字化等剛需場景的十大開箱即用的場景化解決方案。同時,主辦方特別設(shè)置了覆蓋100 余項創(chuàng)新產(chǎn)品的體驗區(qū)。

從能聽會說到高情商創(chuàng)作,科大訊飛通過一系列方案更新針對性解決了人機交互中延遲慢、不精準等痛點,引領(lǐng)智能交互邁向更加高效、自然、智慧的階段。

盡管智能交互不斷進步,用戶體驗與預期的自然流暢卻相去甚遠。

交互過程中的延遲感是首要痛點。而當指令涉及多步驟任務(wù)時,主流語音助手的完成率就更低了。智能家居場景中,關(guān)閉所有燈光指令若延遲,明顯的等待感不如直接手動開關(guān);車載語音系統(tǒng)在導航查詢時,秒數(shù)級的延遲可能導致駕駛員錯過關(guān)鍵路口決策時機。

用戶被迫適應“機器的節(jié)奏”,經(jīng)常需要調(diào)整自己的表達方式來適應設(shè)備的理解能力,比如必須使用固定句式或關(guān)鍵詞才能得到正確響應——這無疑違背了人機交互的初衷。嘈雜環(huán)境中,語音識別準確率大幅下降;多步驟任務(wù)中,系統(tǒng)往往只能執(zhí)行單一指令,無法理解復雜意圖。

尤其是對于發(fā)音還不夠標準、各種概念表達還不夠準確的兒童來說,與智能助手對話常常面臨著各說各話的尷尬。一方面,主流智能平臺難以從碎片化的童言中拼湊出兒童想表達的意思;另一方面,心智尚不成熟的幼兒無法像成年人一樣調(diào)整對話方式引導機器,可能常常面臨對話終止的尷尬。

而對企業(yè)級用戶而言,企業(yè)知識庫開發(fā)和適應業(yè)務(wù)需求模型微調(diào)上,企業(yè)尤為重視數(shù)據(jù)隱私安全,交互全流程自主研發(fā)難度大,私有化成本高。智能交互的場景適應性差也是難點,在展廳、工廠等嘈雜環(huán)境下的交互質(zhì)量明顯下降。并且,企業(yè)需要為每個應用場景單獨開發(fā)交互模塊,開發(fā)周期長、維護難度大。系統(tǒng)的更新也需要重新訓練模型,影響產(chǎn)品迭代速度。這些痛點嚴重制約了交互產(chǎn)品的廣泛應用和價值釋放,傳統(tǒng)交互設(shè)備呼喚著智能化的升級。

針對傳統(tǒng)人機交互領(lǐng)域的多重痛點,科大訊飛構(gòu)建了互補協(xié)同的AIUI開放平臺和機器人超腦平臺。

AIUI平臺是一套全鏈路的人機智能交互解決方案,旨在通過語音、圖像、手勢等自然交互方式,實現(xiàn)人與機器之間的持續(xù)、雙向、自然溝通。

該平臺自2015年上線以來,持續(xù)迭代升級,現(xiàn)已成為智能硬件、機器人、智能家居、車載系統(tǒng)等領(lǐng)域的核心交互技術(shù)提供商。

6月12日發(fā)布會上,科大訊飛宣布旗下AIUI開放平臺已升級為全鏈路交互開發(fā)平臺,通過整合訊飛星火大模型,為開發(fā)者提供更靈活、強大的交互能力。

一方面,AIUI平臺讓交互速度提升、精準度提高。

AIUI平臺通過技術(shù)優(yōu)化,將交互響應時間壓縮至1.6秒,結(jié)合星火大模型的AIUI增強了深度語義理解能力,用戶不再需要翻譯自己的想法為機器可理解的格式;對話體驗上,AIUI平臺的全雙工交互技術(shù)打破了傳統(tǒng)“你說完我再說”的壁壘,系統(tǒng)允許用戶隨時插話、打斷或補充,真正做到“不搶話、不冷場”如同自然人際交流般流暢。為了讓開發(fā)更簡單便捷,AIUI新增模板智能體,讓開發(fā)者通過可視化的配置即可構(gòu)建智能體。同時AIUI云端鏈路開放了三方知識庫、智能體和私有模型的引用,企業(yè)開發(fā)者不用上傳數(shù)據(jù)即可使用AIUI全鏈路語音交互技術(shù),保護了企業(yè)的數(shù)據(jù)隱私安全,復用了企業(yè)已經(jīng)開發(fā)完備的資產(chǎn)。

針對環(huán)境噪聲,科大訊飛發(fā)布了三麥陣列降噪技術(shù),改善了用戶在廚房烹飪、戶外活動等真實場景中的交互體驗。智能眼鏡等穿戴設(shè)備借助三麥陣列降噪,突破了環(huán)境噪聲限制,實現(xiàn)了一對一私密對話。設(shè)備能精準捕捉佩戴者的語音指令,提升了室外復雜環(huán)境下的語音識別成功率。騎行者無需減速停車即可通過語音操控導航和通訊功能;戶外工作者能在嘈雜的工地環(huán)境中一次性完成語音指令;旅行者可以在喧鬧的街道上進行實時語音翻譯。

另一方面,情感計算為智能交互注入了溫度。

科大訊飛針對兒童群體首發(fā)推出了兒童專屬交互方案,當兒童表現(xiàn)出沮喪情緒時,系統(tǒng)會以溫和鼓勵的語調(diào)回應;當檢測到用戶愉悅時,則采用更活潑的交流方式。情感適配改變了智能設(shè)備冰冷刻板的傳統(tǒng)印象。

AI毛絨玩具采用AIUI的7911兒童交互開發(fā)套件,優(yōu)化聲學模型與語義糾偏技術(shù),精準識別模糊發(fā)音與跳躍式提問,支持情緒感知與寓教于樂內(nèi)容推薦。例如,孩子說“我想看星星”,設(shè)備不僅播放科普視頻,還會引導孩子用英語描述不同星體的特征。

發(fā)布會現(xiàn)場,幾位程序員寶爸受邀參加了一小時兒童應用開發(fā)比賽。他們需要依托星辰Agent平臺,為手中的硬件開發(fā)版建構(gòu)針對童言童語和幼兒心理的兒童交互Agent。

并且,為解決個性化不足問題,科大訊飛構(gòu)建了對話上下文、用戶畫像和生活事件三層記憶系統(tǒng),讓設(shè)備能夠更好地理解個性化用戶習慣。智能家居領(lǐng)域,AIUI全鏈路優(yōu)化技術(shù)解決了傳統(tǒng)設(shè)備連接復雜、操作繁瑣的問題,還通過深度理解用戶意圖,將分散的指令整合為場景化控制。當用戶說出我要看電影時,系統(tǒng)自動調(diào)暗燈光、關(guān)閉窗簾、打開投影設(shè)備并調(diào)出常看的影片類型。

2015年正式上線以來,AIUI平臺日均交互量已突破3億次,鏈接生態(tài)伙伴超20萬,在電視、車載、兒童教育、機器?等領(lǐng)域建?行業(yè)標桿。

作為科大訊飛的第二個技術(shù)引擎,機器人超腦平臺就像是機器人的智慧中樞系統(tǒng)。超腦平臺突破了傳統(tǒng)機器人單一功能執(zhí)行的局限,通過多模態(tài)感知融合與認知決策能力的深度整合,實現(xiàn)了機器人從機械執(zhí)行到智能交互的升級。

一方面,理解能力顯著提升,機器人有了眼、嘴、大腦。整合視覺、語音、力覺等多維傳感數(shù)據(jù)的多模態(tài)交互系統(tǒng),使機器人能像人類一樣綜合判斷環(huán)境信息,環(huán)境感知準確率提升至92%?;谛腔鸫竽P偷恼J知理解能力,讓機器人具備社會常識和專業(yè)知識雙重理解維度,可應對開放場景下的多樣化需求。

小魚、艾米等搭載超腦平臺的穿山甲服務(wù)機器人,支持自然語言對話、導覽、送餐等功能,應用于酒店、政務(wù)、醫(yī)療等場景,交互準確率顯著提升;基于超腦平臺的“3D形象生成+AI語音合成”數(shù)字人,支持多語言播報、表情動作同步,已用于新聞播報、直播帶貨等場景。

另一方面,機器人的行動更加高效、流暢,實現(xiàn)了從感知到?jīng)Q策再到執(zhí)行的閉環(huán)智能。發(fā)布會上首次亮相的智能語音背包讓機器人即插即用,輕松開口。采用模塊化設(shè)計的智能語音背包,所有功能集成一體,可快速集成到現(xiàn)有機器人或智能設(shè)備中,無需改動硬件或額外開發(fā)語音交互系統(tǒng),開發(fā)門檻大大降低。大會現(xiàn)場,搭載智能語音背包的G1文能作詩撩妹,武能拳打太極,引得現(xiàn)場觀眾陣陣歡呼。

服務(wù)于工業(yè)場景中,服務(wù)機器人通過機器人超腦的多模態(tài)感知,實現(xiàn)了高度自然的服務(wù)體驗;在銀行、醫(yī)院、政務(wù)大廳等公共服務(wù)場所,機器人不僅理解問題本身,還能察覺用戶情緒,調(diào)整回應策略;在數(shù)據(jù)高敏感的工業(yè)場景,端側(cè)部署大模型支持離線通話,沒有網(wǎng)絡(luò)也能及時互動;在物流倉儲行業(yè),機器人復雜任務(wù)執(zhí)行成功率超過95%。

最新數(shù)據(jù)顯示,目前訊飛機器人超腦平臺產(chǎn)品覆蓋人形機器人、四足機器人、公共服務(wù)機器人等500多家機器人廠商;其中60%使用了包括麥克風陣列降噪到語音交互全鏈路交互方案。

不止AIUI和機器人超腦,訊飛科大在發(fā)布會上還推出了一系列智能交互產(chǎn)品。

在2025科大訊飛智能交互發(fā)布會上亮相的虛擬人交互平臺,堪稱數(shù)字分身制造機。用戶僅需上傳一張照片、錄入5分鐘語音,就能在分鐘級內(nèi)生成專屬虛擬形象與克隆音色,連方言口音都能精準復刻。

依托星火大模型,虛擬人不僅支持82種語言流暢對話,還能通過手勢、眼神實現(xiàn)多模態(tài)交互,就像黃石市民之家的黃小政,能主動識別方言為老人答疑。目前,該平臺已積累超100萬聲音復刻用戶,滲透媒體、金融、教育等行業(yè),例如新聞主播通過文字一鍵生成播報視頻,電商虛擬主播實現(xiàn)多平臺24h帶貨,讓交互體驗從能用升級為沉浸式陪伴。

大會現(xiàn)場,科大訊飛開放平臺總經(jīng)理趙艷軍就靠語音與照片實時生成了自己的數(shù)字分身“小趙”。大屏幕上的小趙分身不僅語音模仿得惟妙惟肖,還精通多門外語,不忘詞、不結(jié)巴,讓演講者本人也直呼精妙。

不止靜態(tài)的數(shù)字分身,訊飛平臺還發(fā)布了“能說、會動、可感知”的移動數(shù)字人解決方案。大會現(xiàn)場,移動數(shù)字人“小雨”聲動相隨、靈活閃現(xiàn),面對隨機提問,現(xiàn)場嘉賓與小雨一問一答,互動感十足。

據(jù)悉,自訊飛星火大模型正式發(fā)布以來,訊飛開放平臺已新增超過453.6萬開發(fā)者,其中大模型直接相關(guān)的開發(fā)者數(shù)量超過148.1萬,企業(yè)級用戶超過88.5萬。海外開發(fā)者團隊數(shù)51.8萬遍布新加坡、中東、日韓及歐洲。訊飛生態(tài)合作伙伴已突破1152萬。

商業(yè)維度,科大訊飛累計中標項目已超130個,總金額突破14億元,中標數(shù)量和金額均大幅領(lǐng)先行業(yè)。

今天的科大訊飛手握AIUI、機器人超腦平臺兩大技術(shù)引擎,在教育、醫(yī)療、金融、工業(yè)等多個領(lǐng)域深度賦能,真正讓AI從實驗室走向千家萬戶。而在時代的見證下,科大訊飛的智能交互之路還將走得更深、更遠。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2025-06-17
打破交互困局:科大訊飛這樣出手
打破交互困局:科大訊飛這樣出手

長按掃碼 閱讀全文