高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

AI挑戰(zhàn)全套高考數(shù)學(xué)題來(lái)了!

高考數(shù)學(xué)一結(jié)束,我們連夜使用六款大模型產(chǎn)品,按照一般用戶(hù)截圖提問(wèn)的方式,挑戰(zhàn)了 14 道最新高考客觀題,不過(guò)有網(wǎng)友質(zhì)疑測(cè)評(píng)過(guò)程不夠嚴(yán)謹(jǐn),所以這次我們加上解答題,重新測(cè)一遍。

本次參加挑戰(zhàn)的選手分別是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1 Turbo、o3,并且新增網(wǎng)友們非常期待的 Gemini 2.5 pro。上一次我們使用網(wǎng)頁(yè)端測(cè)試,這次除 o3 外,其他模型全部調(diào)用 API。

在考題選擇上,我們?nèi)匀徊捎?2025 年數(shù)學(xué)新課標(biāo) Ⅰ 卷,包含 14 道客觀題,總計(jì) 73 分;5 道解答題,總計(jì) 77 分。其中第 6 題由于涉及到圖片,我們就單獨(dú)摘出來(lái),后面通過(guò)上傳題目截圖的形式針對(duì)多模態(tài)大模型進(jìn)行評(píng)測(cè)。其他文本題目全部轉(zhuǎn)成 latex 格式,分別投喂給大模型,還是老規(guī)矩,不做 System Prompt 引導(dǎo),不開(kāi)啟聯(lián)網(wǎng)搜索,直接輸出結(jié)果。

(注:第 17 題雖然也涉及到圖片,但文字表述足夠清晰,不影響答題,因此也以 latex 格式測(cè)評(píng)。)

客觀題計(jì)分方法按照以往高考判分原則:

單選題每道 5 分,選項(xiàng)正確計(jì)分,錯(cuò)誤不得分;

多選題每道 6 分,全對(duì)計(jì) 6 分,漏選按正確答案數(shù)量計(jì)分,如答案為 ABCD,漏選其一扣 1.5 分,錯(cuò)選不得分;

填空題每道 5 分,填空正確計(jì)分,錯(cuò)誤不得分。

至于解答題,由于現(xiàn)在還未出具體的評(píng)分細(xì)則,所以我們請(qǐng)數(shù)學(xué)專(zhuān)業(yè)的朋友進(jìn)行評(píng)判,主要還是看大模型的最終答案以及解題步驟中是否有嚴(yán)重失誤點(diǎn)。

7 家大模型考試成績(jī)?nèi)缦聢D所示。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

從客觀題來(lái)看,各家大模型幾乎拉不開(kāi)差距,最大分差也只有 3 分,第 6 題圖像題更是讓這幾家多模態(tài)大模型「全軍覆沒(méi)」。在上一次測(cè)評(píng)中,o3 客觀題成績(jī)墊底,但有網(wǎng)友表示,這可能是由于某些原因?qū)е潞笈_(tái)自動(dòng)切換成其他模型,而這一次我們選用的是未「降智」的 o3,選擇題和填空題成績(jī)?nèi)允桥旁谧詈?當(dāng)然,65 分的成績(jī)相比「降智」版確實(shí)有很大提升。

解答題是大模型失分的「重災(zāi)區(qū)」。除了 Gemini 2.5 Pro 拿到全部的分?jǐn)?shù)外,其它模型或多或少均有失分。其中 DeepSeek R1 和 Doubao 最可惜,只丟了一分;o3 則失了 2 分,最終得到 75 分。相較而言,hunyuan-t1-latest 和文心 X1 Turbo 發(fā)揮不佳,分別拿到 68 分和 66 分。

從總分上來(lái)看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分緊隨其后,并列第二;o3 和 Qwen3 也僅有一分之差,分別排在第三和第四。受解答題的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的總成績(jī)排到了最后兩名。

解答題:大模型失分「重災(zāi)區(qū)」

我們先來(lái)看看解答題的情況。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

第 15 題和第 17 題,一道考查概率問(wèn)題,一道涉及立體幾何知識(shí),7 家大模型均拿到滿(mǎn)分。

第 16 題是一道數(shù)列綜合題,滿(mǎn)分 15 分,只要證明完整、計(jì)算過(guò)程完整、結(jié)果正確就能拿到全部的分?jǐn)?shù)。大模型整體表現(xiàn)不錯(cuò),只有 Qwen3 解答正確,但最終答案里面增加了多余的假設(shè)求值,扣了一分。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

第 18 題這道橢圓方程與幾何就難倒了不少大模型,僅 Doubao、DeepSeek R1 和 Gemini2.5 Pro 拿到滿(mǎn)分 17 分,其他模型各有各的扣分點(diǎn)。Qwen3 前面回答得都不錯(cuò),過(guò)程也很完整,但偏偏最后一小問(wèn)|PQ|最大值取約等于 9 的步驟多余,導(dǎo)致結(jié)果偏差,扣了一分。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

o3 則是第(3)問(wèn)答案沒(méi)化簡(jiǎn)丟了一分。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

文心 X1 在第 2 問(wèn) (2) 正確算出 P 點(diǎn)軌跡,但未證明極值,直接按最遠(yuǎn)點(diǎn)計(jì)算造成結(jié)果錯(cuò)誤,扣 6 分。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

hunyuan-t1-latest 前兩問(wèn)中回答正確,到了第 3 問(wèn)完成 P 點(diǎn)軌跡之后就全錯(cuò)了,一下子丟了 5 分。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

對(duì)于最后一道壓軸題,Gemini2.5 pro 是唯一全對(duì)的大模型。Doubao 只說(shuō)明了震蕩項(xiàng)的振幅大于 0,但是也有可能震蕩項(xiàng)的相位是反的,那樣的話(huà)最大值反而有可能更小,證明過(guò)程不夠嚴(yán)謹(jǐn),扣一分。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

DeepSeek R1 在第(3)問(wèn)中分情況討論,得出了兩類(lèi)解,但對(duì)第一類(lèi)解未做后續(xù)說(shuō)明,扣了一分。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

o3 第(2)問(wèn)思路正確,但因?yàn)殚_(kāi)閉區(qū)間差別,「完全重合」說(shuō)法錯(cuò)誤,扣 1 分。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

hunyuan-t1-latest 在第(2)問(wèn)上思路可行但證明過(guò)程模糊,扣 2 分,到了第(3)問(wèn)沒(méi)有判斷 phi 取值,又扣了 2 分。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

文心 X1 和 Qwen3 也都是在第 2 問(wèn)和第 3 問(wèn)上失了分,第 2 問(wèn)證明模糊扣 2 分,第 3 問(wèn)則是未具體說(shuō)明 phi 值扣 2 分,而且文心 X1 比大小還發(fā)生錯(cuò)誤,又扣了 1 分。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

客觀題:一道圖像題難倒幾家多模態(tài)大模型

在不考慮識(shí)圖題(第6題)的情況下,客觀題大模型總體表現(xiàn)都不錯(cuò),Doubao、Qwen3、Gemini 2.5 pro、DeepSeek R1 、文心 X1 Turbo 和 hunyuan-t1-latest 均取得了 68 分的高分,只有 o3 在多選題上少選了一項(xiàng)丟了分。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

其中,o3 在第 9 題計(jì)算過(guò)程中,忽視了「正三棱柱」這一關(guān)鍵條件。它在建立坐標(biāo)系時(shí),分別用 (x?, y?, 0) 表示 A 點(diǎn)坐標(biāo),用 (c, 0, 0) 表示 C 點(diǎn)坐標(biāo),但沒(méi)有考慮到:正三棱柱的底面是正三角形,這意味著正三角形的邊長(zhǎng) c 與 x?、y?之間存在關(guān)系:c=2x?=2y?/√3。導(dǎo)致對(duì) B 選項(xiàng)的判斷出現(xiàn)錯(cuò)誤。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

接下來(lái)看看這道圖片題。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

遺憾的是,此次測(cè)評(píng)的多模態(tài)大模型都在這道識(shí)圖題上表現(xiàn)不佳。雖然 hunyuan-t1-latest 不是多模態(tài),但我們又測(cè)試了 hunyuan-t1-vision ,也在這道題上敗下陣來(lái)。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

相比之下,Doubao 和 o3 至少正確識(shí)別了坐標(biāo)位置,只是誤判了視風(fēng)風(fēng)速方向,而 Gemini 連基本坐標(biāo)都未能正確識(shí)別。

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

高考數(shù)學(xué)全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

總的來(lái)說(shuō),這次測(cè)評(píng)結(jié)果顯示,大模型在數(shù)學(xué)推理能力上有不小的進(jìn)步,但仍有較大的提升空間。比如不少模型在解答題上丟分,這反映出大模型在復(fù)雜推理、嚴(yán)謹(jǐn)論證和多步驟計(jì)算方面還需加強(qiáng)。

此外,所有參測(cè)的多模態(tài)大模型在第 6 題的圖像識(shí)別上都出現(xiàn)了問(wèn)題,這也暴露出當(dāng)前 AI 在圖文結(jié)合理解方面的短板。

最后,緊張的高考已經(jīng)結(jié)束,祝福所有考生都能取得理想的成績(jī),有著燦爛的未來(lái)!

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )