今年的高考迎來一批有點特殊的考生。
隨著多地高考成績出爐,中國各家大模型的“趕考”情況也一目了然:字節跳動旗下的豆包拿下中國“文科狀元”,大模型們的理科成績相對要差。
據極客公園6月24日發佈的高考新課標Ⅰ卷大模型評測報告中,排在文科總分第一的是國外公司OpenAI的GPT-4o考出的562分,從國內公司來看,字節跳動旗下的豆包拔得頭籌,成績是542.5分,其後依次是百度文心一言4.0的537.5分、百川智慧“百小應”的521分。
本次大模型高考評測與河南省考卷完全相同,河南高考錄取分數線顯示,文科本科一批錄取分數線為521分,豆包等三款國産AI成功衝上一本線,而豆包更是超出一本線20多分。
一:語言類考試成大模型拿手好戲
無論是語文還是英文,對於大模型而言,語言類考試顯得得心應手。
作為本次評測的語文作文閱卷人,北京市級骨幹教師、懷柔區語文學科帶頭人夏老師曾多次參加全國高考語文閱卷。夏老師認為,Al寫出的文章大多有清晰完整的結構,有邏輯性,語言通順流暢。但其理性有餘,感性不足,缺乏感情色彩,自然就缺乏感染力。
值得注意的是,豆包語文成績排名第二,但其作文在匿名閱卷中,獲得閱卷老師的好評。
夏老師認為,豆包的文章中顯出的對就業結構、倫理方面的擔心,展現出豆包已經具有不錯的思想深度和思辨能力。在立住“問題”後,豆包隨即用反問句自然過渡,引出三個排比段提出解決問題的方法——保持“問題意識”。
其中,用發展的眼光分析問題,結合現實生活揭示問題産生的根源和危害的部分頗為亮點,並且整體上“結構嚴謹,層層推進,語句流暢,認識全面”。
英語則是大模型表現最優異的學科,九個大模型的平均分高達 132 分(滿分 150),大部分大模型都可以做到客觀題接近滿分,而只在作文少量失分,這也是大模型表現最接近的學科。
在閱讀和語言運用兩大項客觀問題的考試上,GPT-4o、百小應、通義千問獲得80分滿分,豆包和文心一言4.0也接近滿分。
二:大模型普遍“偏科”,豆包文綜拿高分
語言類考試能力強的大模型也有點“偏科”,文科考試中的成績相比理科而言顯然要亮眼很多。
在由歷史、地理、政治組成的新課標文綜考卷評測中,GPT-4o獲得237分的成績,平均分達到79分,優於多數人類考生。
國産大模型産品中,豆包的文綜成績最高,分數達到224.5分,其中歷史科目拿到82.5分,在所有9款大模型中得分第一。
特別是歷史和政治兩科,測試選手中有三至四家能達到 80% 以上的得分率。歷史單科的桂冠歸屬豆包 82.5 的平均分,政治考試最強的卻意外是 GPT-4o,這個“外來的和尚”甚至在政治考試中得到了誇張的 91.5 分。而文心 4.0、百川 4.0,在歷史、政治兩大學科都能達到 80 分左右的水準。
地理考卷則有大量圖片問題,對一眾大模型是不小的挑戰,圖像理解能力較強的GPT-4o得到最高分,但僅有68分。
三:數學挂科不少,理科建議“復讀”
讓大部分考生頭疼的數學試卷也難住了大模型,這與過往的印象有些不同,數學似乎一直都是電腦的強項,但在中國高考卷上卻得不到印證。
GPT-4o 是高考數學卷中答的最好的,得了 70 分,這意味著在滿分150的情況下,測試中表現最好的的大模型仍然在數學考試裏“挂了科”,甚至一半分都拿不到。
總體的測試結果是,大模型解決數學問題的能力明顯不足,在所有産品的 2 輪測試中,9 款産品的數學平均分只有 47 分。除了 GPT-4o,豆包和文心 4.0是平均分唯二超過 60 分的,分別是 62.5 分和 61.5 分,剩下的六位大模型考生中則只有百小應能夠維持 40 分以上的平均分。
值得注意的是,從得分比例上來看,大模型在化學學科的表現要略差于物理,這可能跟化學標記語言和化學結構圖示相對更加複雜有關。在一道考察原子核外電子排布的化學題中,九個大模型幾乎全軍覆沒,只有豆包正確分析出了對應的原子序數以及類別。
對於河南高考理科 511 分的一本線,表現最好的文心 4.0 仍然有超過 30 分的差距,但從測試結果來看,大模型目前的智力水準找個二本的理科專業已經綽綽有餘。
把大模型和人類的智力水準放進同一個參照係,高考的成績讓我們看到,參加測試的大模型已經接近半數有能力拿到一張一本文科的錄取通知書。但與此同時,測試結果也表明瞭,即使性能最頂尖的大模型産品們,目前也仍然在高考的數理化考題裏疲於應付。對於大模型而言,真正的“智慧”還在路上。
(責任編輯:王晨曦)