章俊邁
機器之心報道
機器之心編輯部
昨天,OpenAI官宣了一個重磅消息:他們的一個推理模型在國際數(shù)學奧林匹克(IMO)競賽中獲得了金牌水平的表現(xiàn)。
官宣該消息的OpenAI研究科學家AlexanderWei表示,在評估過程中,研究團隊嚴格按照人類選手的比賽規(guī)則進行測試:模型需要在兩個4.5小時的考試環(huán)節(jié)中,在沒有任何工具或網(wǎng)絡輔助的情況下,閱讀官方題目并撰寫自然語言證明。
在評估中,該模型成功解決了2025年IMO六道題目中的五道,獲得了35分(滿分42分)的成績,足以獲得金牌。每道題目都由三位前IMO獎牌獲得者獨立評分,并在達成一致后確定最終分數(shù)。
在該消息公布后,整個AI社區(qū)都為之振奮。AlexanderWei還曬出了OpenAI新模型生成的證明過程。
證明過程鏈接:https://github.com/aw31/openai-imo-2025-proofs/
而且有趣的是,就在AlexanderWei發(fā)帖之前不久,各家AI模型剛被曝出在IMO中表現(xiàn)不佳,得分最高的Gemini2.5Pro得分僅為13分,OpenAI的o3(high)則拿了7分。OpenAI新模型成績的官宣讓這一事件出現(xiàn)了驚人的反轉。
不過,在這些消息發(fā)酵后不久,數(shù)學家陶哲軒站了出來,勸大家「謹慎看待」。他認為,如果沒有嚴格控制、標準化的測試條件,我們就無法用一種有意義的方式來比較AI模型與人類,并表示自己「不會評論任何在競賽前未公開其方法的自我報告的AI競賽結果」。這引發(fā)了大家對于AI模型實際進展的思考。
陶哲軒:謹慎看待各大AI模型的IMO成績
陶哲軒在博客中寫道:
人們很容易把當下AI的能力當成一個「一刀切」的單一指標:任務X要么在現(xiàn)有工具的能力之內(nèi),要么不在。實際上,AI的能力差距可以拉開好幾個數(shù)量級,具體取決于給它什么資源、輔助方式,以及大家如何匯報自己的結果。
我用一個比喻來說明這一點。就取剛結束的國際數(shù)學奧林匹克(IMO)競賽做例子。
標準賽制是:每個國家派6名高中生參賽,由一名領隊(通常是職業(yè)數(shù)學家)帶隊。兩天里,選手每天4.5小時用紙筆獨立解答3道難題;考試期間選手之間、選手與領隊之間不得交流,只能請監(jiān)考員澄清題意。閱卷時領隊為學生辯護,但并不直接參與做題。能拿到金牌(今年分數(shù)線35/42,即6題里完美做出5題)被視為高中生極高的數(shù)學成就。
但是,如果我們通過各種方式改變奧林匹克競賽的形式,思考一下其難度會發(fā)生什么變化:
給學生幾天時間來完成每道題目,而不是在四個半小時內(nèi)完成三道題。(稍微延伸一下這個比喻,想象一個科幻場景:學生仍然只有四個半小時,但領隊將他們置于某種昂貴且高耗能的時間加速機器中,在此期間學生們經(jīng)歷了數(shù)月甚至數(shù)年的時間。)
考試開始前,領隊以一種學生認為更容易處理的形式重寫題目。
領隊允許學生無限制地使用計算器、計算機代數(shù)系統(tǒng)、形式化證明助手、教科書,或使用互聯(lián)網(wǎng)搜索。
領隊讓六名隊員組成的團隊同時解決同一個問題,并就各自的部分進展和遇到的死胡同進行溝通。
領隊向學生提示可能有效的方法,并在某個學生花費太多時間在一個他們知道不太可能成功的方向上時進行干預。
團隊中的六名學生都提交解答,但領隊只選擇「最佳」解答提交給競賽,而將其余的丟棄。
如果團隊中沒有一個學生得出滿意的解答,領隊則完全不提交任何解答,并悄悄退出比賽,他們的參與記錄也無從知曉。
在上述每一種形式中,提交的解答從技術上講仍然是由高中參賽選手生成的,而非領隊。然而,學生們在競賽中報告的成功率可能會因這些形式上的改變而受到顯著影響;一個在標準考試條件下可能連銅牌水平都達不到的學生或團隊,在上述某些修改后的形式下,反而可能達到金牌水平。
因此,在缺乏一種非參賽團隊自選的、受控的測試方法論的情況下,人們應該警惕將不同AI模型在IMO這類競賽中的表現(xiàn),或將這些模型與人類參賽者的表現(xiàn)進行「同類比較」。
與此相關的是,對于任何未在賽前披露其方法論的、自我報告的AI競賽表現(xiàn)結果,我將不予置評。
網(wǎng)友:能寫幾頁紙的證明本身就值得關注
對于陶哲軒提出的質疑,網(wǎng)友展開了廣泛討論。首先需要指出,陶哲軒在帖子中提到的挑戰(zhàn)IMO的AI模型可能不是特指OpenAI的模型,因此里面指出的一些問題對于OpenAI來說可能并不完全適用。
比如,從OpenAI的聲明來看,他們似乎沒有使用工具調用。
不過,有人反駁說,模型在訓練期間就記住了整個互聯(lián)網(wǎng)的語料,即使不調用工具,讓他們和無法訪問互聯(lián)網(wǎng)的人類學生相比也不夠公平。
還有人指出,這些問題其實并不值得糾結。從OpenAI的這個模型中,我們應該看到的是:AI已經(jīng)能夠在一個「難以驗證」的領域進行超過一個小時的推理并給出正確答案了。
所謂的「難以驗證」,相對的是容易驗證,比如像AIME(美國數(shù)學競賽體系中的高階邀請賽)中的數(shù)學題,每題答案為000-999之間的整數(shù),無需證明過程,僅填數(shù)字。對于這類問題,我們很容易用標準答案來訓練模型,用強化學習等方法來教會模型解決這類問題。但對于長達多頁的證明,我們一直缺乏明確的訓練范式。這也是OpenAI的研究最令人好奇的地方。
在關于該模型的討論中,OpenAI推理研究主管NoamBrown也專門指出了這一點,而且明確表示他們「還有很大的空間來進一步提升測試時的計算能力和效率」。
如果OpenAI真的掌握了讓模型解決「難以驗證」的問題的訓練方法,他們是不是又往前走了一大步?
目前,這些問題尚無定論。OpenAI的做法也非常神秘:他們提到最近會發(fā)布GPT-5,但又明確指出這個拿到IMO金牌的模型不是GPT-5。這個模型的面世可能還要等幾個月。
Onemorething:領導神秘模型的AlexanderWei是誰?
這個拿到IMO金牌的推理模型來自AlexanderWei領導的一個小組。NoamBrown提到,在新模型中,AlexanderWei采取了一個鮮有人相信的想法,并利用它取得了極少人認為可能實現(xiàn)的結果。
AlexanderWei專注于LLM的推理能力提升,特別是在數(shù)學推理和自然語言證明生成方面。他還曾獲得國際信息學奧林匹克(IOI)金牌。
他于2023年獲得加州大學伯克利分校的計算機科學博士學位,師從NikaHaghtalab、MichaelI.Jordan及JacobSteinhardt。此前,他于2020年在哈佛大學完成了計算機科學的本碩學習。他的研究曾榮獲SODA最佳學生論文獎和INFORMS拍賣與市場設計領域的Rothkopf獎。
加入OpenAI之前,Wei博士曾先后在MetaAI(FAIR)、MicrosoftResearch及D.E.Shaw公司積累了豐富的研究與行業(yè)經(jīng)驗。
在MetaAI(FAIR)期間,他參與研發(fā)了在策略游戲《外交》(Diplomacy)中達到人類頂尖水平的AI系統(tǒng)CICERO,該成果發(fā)表于2022年的《Science》雜志。
AlexanderWei小組的工作給最近深陷挖腳危機的OpenAI注入了一針強心劑,NoamBrown似乎也有意借此向外界傳遞一個重要信號:OpenAI依然是一個前沿技術實驗室,其擁有的技術比其他實驗室提前幾個月。只有在這里工作,你才能在第一時間接觸到這些東西。你同意他的看法嗎?
參考鏈接:https://x.com/alexwei_/status/1946477754372985146
八異的小說以9.9分優(yōu)勢超過了《五千年第一長生贅婿》,強推!
今日推薦:《神魂至尊》作者:八異。點擊文末超鏈接開始觀看吧~第二百四十四章風雷六翼“《風雷六翼》共分兩大類別,那便是雷翼與風翼,雷翼由雷蛇翼、雷蛟翼和雷龍翼三部分組成,若是修成雷翼,那么你便能擁有雷霆般的速度,須臾間便是千萬里;風翼由風鳥翼、風鷹翼和鳳凰翼三部分組成,若是修成風翼,那么還有呢?
小說:一本平凡的醫(yī)學書如何引領我成為神魂至尊!
驚喜不斷的三本異界大陸經(jīng)典小說,怒刷N遍都不過癮《神魂至尊》 作者:八異內(nèi)容簡介:天鎧大陸,強者為尊,在這里弱者渺小若螻蟻,強者浩大如山岳;甚至一些至強者可以劈江斷海,開山裂石;更有大神通者可破碎虛空,斬破輪回!醫(yī)科大學生卓文偶得玉鼎穿越到一落魄少爺身上,靠著玉鼎中無盡的丹方以平庸的資質是什么。
四本高人氣玄幻小說,力薦《神魂至尊》,青鋒震九霄,諸天皆臣服
處在掌風最猛烈位置的袁一城,卻是淡定從容,一指點了出去,指尖涌出紫色元氣,擊在林哲右掌的掌心||。掌力猶如被刺破的氣球,瞬間消散-。(點擊下方更多精彩內(nèi)容)第三本:《神魂至尊》——作者:八異精彩內(nèi)容:老者話語剛落,卓天等四人都是登上各自所在的擂臺,其中卓天的對手乃是一直沉默不語的卓琳雙,而卓香兒是什么。
來源:紅網(wǎng)
作者:苗惠文
編輯:黎心香
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉載請附原文出處鏈接和本聲明。