文心一言,甩開GPT-3.5,與GPT-4掰手腕?

文|智能相對論

作者| 葉遠(yuǎn)風(fēng)

“請寫一個肯德基瘋狂星期四的段子。”

“我女朋友的老公應(yīng)該叫我什么?”

“XX微信群的群主與吳彥祖誰更帥?”

......

給幾個搞怪的問題,戲耍一下,把答案貼出來,大家嘲諷一番。

在文心一言發(fā)布后,這種玩法直到今天還沒有停止的意思。

可能連背后的技術(shù)與產(chǎn)品人員都沒有想到,文心一言會以這樣的方式火了下去。

作為國產(chǎn)版ChatGPT,文心一言在發(fā)布后,除了贊譽的聲音,以各種形式被批判應(yīng)該在意料之中,ChatGPT當(dāng)初也是如此,這是產(chǎn)品不斷進(jìn)化要經(jīng)歷的過程。

只不過,在沒有好壞的定論中,到底要給文心一言當(dāng)下的技術(shù)水準(zhǔn)定一個什么樣的定義,并沒有客觀的、更加令人信服的結(jié)論。

起碼,這種“戲?!辈⒉荒芊从扯嗄B(tài)大模型所具備的能力。

ChatBOT固然可以閑聊,也應(yīng)該支持用戶隨便閑聊,但閑聊互動不應(yīng)該成為一款專業(yè)產(chǎn)品能力的最終評價標(biāo)準(zhǔn)。

光怪陸離的問題,就算去詢問一個人類智者,得到的答案也是光怪陸離的。

現(xiàn)在來看,以某種更現(xiàn)實的視角去提出問題、實測答案,才更能體現(xiàn)出文心一言的能力和價值。

這種現(xiàn)實的視角應(yīng)當(dāng)有很多,其中,以企業(yè)信息需求為著眼點,會是其中之一。

這是因為,從文心系列大模型走向?qū)υ挳a(chǎn)品“一言”,或者,從GPT-3.5到GPT-4,ChatBOT最后都還是要走向商用、服務(wù)企業(yè),創(chuàng)造專業(yè)價值的。

GPT-4發(fā)布后并沒有公布其參數(shù)量,這被認(rèn)為是走向商業(yè)化的準(zhǔn)備,畢竟OpenAI制定的數(shù)億美元營收目標(biāo)現(xiàn)在快到4月份了還沒太大動靜。

而服務(wù)企業(yè),要么提供“生產(chǎn)力”價值,這是ChatBOT場景垂直化后需要探索的內(nèi)容,在各產(chǎn)業(yè)提供具體的工作能力;要么提供信息價值,通過類似“上帝之眼”的信息整合與邏輯梳理能力,幫助企業(yè)消除信息不對稱,獲取需要的信息。

目前ChatBOT的產(chǎn)業(yè)應(yīng)用還未見,因此信息價值就成為可以客觀評價的維度。

“智能相對論”團(tuán)隊獲得了文心一言的內(nèi)測賬號,以及ChatGPT普通版本(基于GPT-3.5)與plus版本(基于GPT-4)的測試資格,嘗試從企業(yè)信息獲取維度,提出六個關(guān)聯(lián)問題,從各答案中對比出文心一言的實際能力。

總體上,文心一言甩開GPT-3.5不成問題,與GPT-4能夠掰手腕做到有來有回。

具體一個個分析,每個問題下,分別是文心一言、ChatGPT普通版、ChatGPT plus版的回答截圖。

01、企業(yè)數(shù)字轉(zhuǎn)型怎么找外部合作伙伴,現(xiàn)在有哪些類型的伙伴可以選擇?

可以看出,在三個回答中,只有文心一言提到了選擇外部合作伙伴要注意到的幾點,然后再例舉可以找哪些類型的合作伙伴。

而ChatGPT普F通版、ChatGPT plus版都只是直接給出了類型。

這顯示出,文心一言在算法上,相較與其他兩個產(chǎn)品,對問題的潛在需求認(rèn)識可能更加深刻。

02、企業(yè)應(yīng)該怎樣抓住新的市場機(jī)遇?

在這個問題的回答中,很顯然,條目的多少,基本上決定了答案的質(zhì)量。

對一個企業(yè)來說,要抓住市場機(jī)遇,就應(yīng)該要找到更多的方法,考驗的是ChatBOT整合信息并分門別類的能力。

在這里,文心一言超越GPT-3.5但略遜于GPT-4。

03、企業(yè)怎么招徠優(yōu)質(zhì)人才,有哪些好用的渠道?

與上一個問題類似,條目的多少直觀反映了chatBOT解決需求的能力。

文心一言遠(yuǎn)超GPT-3.5,并超越了GPT-4,再一次掰贏了手腕。

04、員工的工作效率很低,怎么辦?

這一局,相似的判斷標(biāo)準(zhǔn),文心一言繼續(xù)領(lǐng)先GPT-3.5,但沒有打贏GPT-4。

05、客戶總是不回款,有什么好的辦法?

這個問題,由于各個回答都涉及了可能破壞企業(yè)與客戶關(guān)系的行動,因此都進(jìn)行了一次“打補丁”式的追問。

基本上,三個模型都很好地領(lǐng)會到了追問的意圖,對“不和客戶關(guān)系搞僵”有準(zhǔn)確的認(rèn)知,并提供了對應(yīng)的答案。

其中GPT-4的表現(xiàn)超越文心一言。(注意ChatGPT有字?jǐn)?shù)限制,plus版限制在700字左右,所以其輸出因為字?jǐn)?shù)太多最后被中止)

06、企業(yè)資金鏈緊張,但是銀行不肯借錢,怎么辦?

吸取上個問題的教訓(xùn),這個問題直接把限制條件加入到問題當(dāng)中。

類似上一個問題,三個模型對“銀行不借錢”情形下企業(yè)資金鏈緊張的應(yīng)對辦法都有清晰的認(rèn)知,規(guī)避了銀行信貸這一種方式。

其中,文心一言與GPT-4打成了平手,都提供了相同數(shù)量的方法供企業(yè)選擇。

總結(jié)以上,僅就這六個企業(yè)比較關(guān)心的專業(yè)問題而言,文心一言全面勝過GPT-3.5,對GPT-4兩勝、兩負(fù)一平,典型的你來我往掰手腕。

而更進(jìn)一步看,實際上在回答條目上的勝負(fù),無關(guān)算法本身的設(shè)計,在技術(shù)上與算法訓(xùn)練的數(shù)據(jù)量和訓(xùn)練時長有關(guān)(要給足夠多的食物,也要給足夠多的時間去吃食物),后續(xù)的競逐將仍然在數(shù)據(jù)訓(xùn)練上。

對文心一言而言,發(fā)布更晚已經(jīng)吃了虧,下一步如何在訓(xùn)練上追趕、趕超(可能意味著巨大的成本投入)是百度要考慮的問題。

當(dāng)然,由于文心系列大模型過去早已具備了豐富的多模態(tài)能力,因此文心一言在發(fā)布時就自帶有GPT進(jìn)化到“4代”才加入的多模態(tài)能力,這一點也常常為業(yè)界所忽略。

而“智能相對論”認(rèn)為,未來ChatBOT的比拼,將很大程度上在多模態(tài)展開。

這意味著,當(dāng)下的文本競逐,只是一切的開始。

現(xiàn)在,任何的結(jié)論,不管是褒揚的還是貶低的,可能都為時尚早。

*本文圖片均來源于網(wǎng)絡(luò)

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-03-27
文心一言,甩開GPT-3.5,與GPT-4掰手腕?
文|智能相對論 作者| 葉遠(yuǎn)風(fēng) “請寫一個肯德基瘋狂星期四的段子。” “我女朋友的老公應(yīng)該叫我什么?” “XX微信群的群主與吳彥祖誰更...

長按掃碼 閱讀全文