3月31日消息,在2025中關村論壇年會人工智能主題日上,零一萬物 CEO、創(chuàng)新工場董事長李開復發(fā)表演講,其中提到對DeepSeek的四點觀察:
第一個觀察是,DeepSeek破解并開源推理模型的思考訓練過程,進一步縮小與美國的差距。
第二個觀察是,DeepSeek 極其高效的工程效率,這走出了一條與OpenAI天量級融資的底層邏輯迥然不同的中國道路。
第三個觀察,也是最重要的一點,DeepSeek 證明了開源模型能力追趕上閉源模型,進一步推進SOTA模型的商品化。
第四個觀察,中國迎來了屬于自己的“DeepSeek Moment”,將大幅加速大模型在中國的全面落地。
以下為李開復演講全文記錄:
非常高興又有機會來中關村論壇分享我對過去這幾個月 AI 領域所發(fā)生的一些重大事件的觀察,以及我眼中的 AI 行業(yè)藍圖。
AI 2.0 是有史以來最偉大的科技革命與平臺革命,大模型走出實驗室,穿透各行各業(yè)成為驅(qū)動實體經(jīng)濟的新質(zhì)生產(chǎn)力。在過去兩年間,從 ChatGPT 推出之后,大模型智力在不斷地提升,而且目前看起來遠沒有觸及天花板。與此同時,大模型的推理成本在以每年降低十倍的速度快速下降,這為AI-First應用爆發(fā)提供了非常重要的條件。兩年前模型性能不夠好的模型,現(xiàn)在已經(jīng)夠好了;兩年前推理成本太貴的模型,現(xiàn)在已經(jīng)是“白菜價”了。所以在我看來, AI-First 應用很快將井噴,2025 年將會是 AI-First 應用爆發(fā)、大模型“落地為王”的元年。
幾個月前,前 OpenAI 聯(lián)合創(chuàng)始人 Ilya 公開表示,預訓練階段的 Scaling Law 已經(jīng)放緩。因為模型訓練所用的數(shù)據(jù)量已經(jīng)觸及瓶頸,算力方面也存在著客觀制約因素——超大 GPU 集群效益降低,隨著 GPU 數(shù)量增加容錯問題等導致邊際效益降低。即便訓練出超大參數(shù)量的大模型,比如 OpenAI 所發(fā)布的 GPT-4.5,模型性能確實有提升,但是 GPT-4.5 的價格是 DeepSeek-V3 的 500 倍。在絕大多數(shù)生產(chǎn)力場景里,超大參數(shù)量的模型價格昂貴速度緩慢,性價比并不突出。
好在行業(yè)內(nèi)已經(jīng)出現(xiàn)了新的曙光,Scaling Law 正從預訓練階段轉(zhuǎn)向推理階段,也就是慢思考模式。過往預訓練階段的 Scaling Law 是指:有更多的 GPU、更多的數(shù)據(jù),模型就可以變得更聰明,但目前看其增長趨勢放緩了。新的慢思考 Scaling Law 是指:模型思考的時間更長,就會得出有更優(yōu)質(zhì)的結果。目前看來,慢思考 Scaling Law 下,模型性能的成長速度非??欤疫€有很大的增長空間。
結合這些新的技術創(chuàng)新,現(xiàn)在模型訓練的過程變得非常有意思。先訓練一個“文科生”,讓模型閱讀所有的書籍,然后再向理科方向訓練,讓模型能夠證明數(shù)學題、會寫代碼,最終得到的“文理雙全”的模型會非常厲害。
另外一個值得關注的點在于,模型性能的提升其實在加速,而不是在放緩。從 GPT-2 到 GPT-3、從 GPT-3 到 GPT-4.5,每一次升級都花了大約兩年的時間,為什么呢?本質(zhì)上還是人在訓練模型,是人來規(guī)劃新的算法、新的模型架構、再搭配更多 GPU、再投入更多數(shù)據(jù),最終推動模型性能的提升。
但今天,我們進入了一個非常有意思的“AI 教 AI”的時代。從 OpenAI 發(fā)布 o1 到 發(fā)布 o3,中間只隔了三個月。 DeepSeek-R1 也是在 OpenAI o1 發(fā)布的兩個月之后就正式發(fā)布,并且可能很快就會發(fā)布 R2。無論是從 o1 到 o3,還是從 R1 到 R2,模型迭代的速度縮短到了三個月。一個重要的原因就是現(xiàn)在很大程度上已經(jīng)不再單單依靠人來發(fā)明新算法、發(fā)明模型架構,而是 AI 借由慢思考具備了反思的能力,能夠自我迭代、自我進步,也就是“AI 教 AI”,AI進入到自我演進范式。
經(jīng)過慢思考,AI 正變得越來越聰明。模型性能更好的模型可以去教那些基礎較弱的模型,超大參數(shù)模型可以去訓練參數(shù)量較小的模型。這樣的搭配類似“老師”和“學生”,經(jīng)過蒸餾、數(shù)據(jù)標注和合成數(shù)據(jù),未來模型性能的提升會進一步加速。超大預訓練模型的價值將進一步體現(xiàn)在“教師模型”的角色中,其本質(zhì)也將更趨進于大模型時代的基礎設施。
最近,社會各界都在討論 DeepSeek,我也來分享一下我對 DeepSeek 的四個觀察。
第一個觀察是,DeepSeek破解并開源推理模型的思考訓練過程,進一步縮小與美國的差距。
DeepSeek 很快讓模型具備了 Reasoning (推理)慢思考的能力。DeepSeek-R1 真正切實掌握了這一技術,并且還公開了 DeepSeek-R1 的思維鏈。這是非常令人震驚的,因為 OpenAI o1 一直隱藏著思維鏈,就是防止友商復現(xiàn),結果 DeepSeek 還是從零起步做到了這一點。
第二個觀察是,DeepSeek 極其高效的工程效率,這走出了一條與OpenAI天量級融資的底層邏輯迥然不同的中國道路。在同樣標準下進行比較,DeepSeek-R1 要比美國的類似模型更快,也更便宜了 5 到 10 倍,這背后是工程能力的巨大進步。
第三個觀察,也是我認為最重要的一點,DeepSeek 證明了開源模型能力追趕上閉源模型,進一步推進SOTA模型的商品化。DeepSeek 證明了閉源的路徑是不可取的,開源才能有更好的發(fā)展。如果 DeepSeek 沒有開源,我大膽揣測,它的影響力會遠遠不如今天。在美國的開源社區(qū)和社交媒體,大部分人都在熱情擁抱 DeepSeek,過往很少有中國軟件在海外收獲如此廣泛的歡迎。這很大程度上就來自于,與閉源的 OpenAI 相比,DeepSeek 更為開放。
第四個觀察,中國迎來了屬于自己的“DeepSeek Moment”,將大幅加速大模型在中國的全面落地。大概 9 個月前,我曾經(jīng)沮喪地說,中國還沒有“ChatGPT moment”,雖然過去也有表現(xiàn)不錯的模型出現(xiàn),但是卻始終缺少一個一枝獨秀的模型,能夠支撐 ToB、ToC 應用百花齊放,能夠讓每個企業(yè) CEO 都在追問 IT 部門“什么時候能在企業(yè)里接入大模型?”現(xiàn)在企業(yè)和用戶已經(jīng)經(jīng)過“DeepSeek Moment”的市場教育,中國市場真正覺醒了,這也為 中國AI-First 應用的爆發(fā)掃清了一大障礙。
因為過去做大模型應用最大的瓶頸之一,就是需要教育市場。如果一個初創(chuàng)公司需要教育市場,那它幾乎沒有成功的可能,因為教育市場需要的時間太長,前景未卜。今天 DeepSeek 完成了對中國 ToB、ToC市場的市場教育, AI-First 應用爆發(fā)又多了一個強有力的支撐。
DeepSeek 的基座模型很優(yōu)秀,但是如果要落地企業(yè)生產(chǎn)力場景,還有一些卡點需要克服。很多企業(yè) CEO 希望能夠本地部署、安全部署,因為部分 CEO 處于數(shù)據(jù)安全的考慮不希望公司數(shù)據(jù)上網(wǎng),所以不能直接用 API。在應用實踐方面,很多公司需要有更好的聯(lián)網(wǎng)搜索、Deep Research(深度研究) 等功能,也需要用 RAG技術(檢索增強生成,Retrieval-augmented Generation) 鏈接企業(yè)數(shù)據(jù)庫,如ERP、CRM等系統(tǒng)。此外還有企業(yè)希望能夠在基座模型基礎上開發(fā)應用、打造企業(yè)專屬智能體。最后還有很多企業(yè)需要基于 DeepSeek 模型進行模型微調(diào),甚至需要繼續(xù)預訓練,從而讓DeepSeek 等基座模型持續(xù)進化,最終成為能在企業(yè)專屬的“行業(yè)大腦”。
基于上述考量,零一萬物在過去幾個月也做出了戰(zhàn)略調(diào)整,我們已經(jīng)全面擁抱 DeepSeek,并且把大部分力量用于把 DeepSeek 優(yōu)質(zhì)基座模型轉(zhuǎn)變?yōu)槠髽I(yè)級企業(yè)級 DeepSeek 部署定制解決方案——可以類比為零一萬物在打造AI 2.0時代的Windows系統(tǒng),而DeepSeek就是驅(qū)動Windows的內(nèi)核。區(qū)別于普通軟件公司或系統(tǒng)集成商提供的淺層方案,零一萬物2年來在安全部署、應用實踐、行業(yè)定制已經(jīng)具備成熟且全鏈條的技術棧能力——只有真正做過頂尖大模型訓練、模型微調(diào)到應用的大模型公司才能夠提供專業(yè)成熟的、一站式的深度服務。
最后我想說的這點大家此前或許沒有過多關注。隨著全世界開始擁抱 ChatGPT、DeepSeek,一個很大的問題開始浮現(xiàn)。對于小語種而言,很多基座模型的表現(xiàn)并不好。以俄語為例,在 Llama 的訓練語料中俄語占比僅 0.13%,因此 Llama 在俄語上的表現(xiàn)并不好,在東南亞、中東、中亞、非洲等國家和地區(qū)的小語種表現(xiàn)上更是表現(xiàn)不佳。我一個朋友是斯坦福語言學教授,他認為目前大模型基本忽視了 7000 多個小語種,可能會加速這些語言的滅絕??的螤柎髮W的研究也顯示,每個國家和地區(qū)之間的價值觀是存在不小的偏差。所以讓每個國家和地區(qū)都有機會訓練自己語言的模型、訓練出符合自身價值觀的模型,不僅必要而且是這些國家和地區(qū)的剛需。
我們很幸運的是,中國很多大模型公司在訓練中文大模型,但是很多小語種的國家并沒有。這也是零一萬物推出小語種模型的初衷,零一萬基于每個國家可優(yōu)化出不同的模型對齊策略,我們也積極響應“一帶一路”倡議實現(xiàn)共贏發(fā)展,期待與“一帶一路”國家攜手合作,讓更多國家能夠擁有自主可控的大模型。
今年開源模型的勝利是一件大事,“DeepSeek Moment”的出現(xiàn)也是一件大事。今年可以預見的是, AI-First 應用將會迎來爆發(fā)。AI需要市場,市場也需要AI。各家模型公司也必須要回歸商業(yè)本質(zhì),想清楚公司如何利用技術真正為客戶創(chuàng)造價值。零一萬物認為,今年的一個焦點問題應該是:Make AI Work,讓大模型真正賦能千行百業(yè),謝謝大家。
- 微信警告不要使用第三方工具管理聊天記錄 會帶來三大風險
- 2025五一檔新片總票房破億 《水餃皇后》持續(xù)領跑
- 快手調(diào)整組織架構:成立可靈AI事業(yè)部 蓋坤任負責人
- 報告:抖音月活用戶破10億 人均每天刷抖音超1.5小時
- 從家庭連接到智能共生:中興通訊首推AI家庭“四大件”
- 紫光國微2025年Q1凈利潤1.19億元,同比下降61.11%
- 尚網(wǎng)網(wǎng)絡與南京公交集團達成戰(zhàn)略合作 共建智慧出行新生態(tài)
- 華為發(fā)布AI數(shù)據(jù)湖解決方案,加速行業(yè)智能化
- 淘寶宣布加入外賣大戰(zhàn),“小時達”升級為“閃購” 5月6日全國鋪開
- 中國電信柯瑞文:全面深入實施云改數(shù)轉(zhuǎn)戰(zhàn)略 把握人工智能發(fā)展趨勢
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。