機(jī)器之心報道
機(jī)器之心編輯部
昨天,OpenAI官宣了一個重磅消息:他們的一個推理模型在國際數(shù)學(xué)奧林匹克(IMO)競賽中獲得了金牌水平的表現(xiàn)。
官宣該消息的OpenAI研究科學(xué)家AlexanderWei表示,在評估過程中,研究團(tuán)隊(duì)嚴(yán)格按照人類選手的比賽規(guī)則進(jìn)行測試:模型需要在兩個4.5小時的考試環(huán)節(jié)中,在沒有任何工具或網(wǎng)絡(luò)輔助的情況下,閱讀官方題目并撰寫自然語言證明。
在評估中,該模型成功解決了2025年IMO六道題目中的五道,獲得了35分(滿分42分)的成績,足以獲得金牌。每道題目都由三位前IMO獎牌獲得者獨(dú)立評分,并在達(dá)成一致后確定最終分?jǐn)?shù)。
在該消息公布后,整個AI社區(qū)都為之振奮。AlexanderWei還曬出了OpenAI新模型生成的證明過程。
證明過程鏈接:https://github.com/aw31/openai-imo-2025-proofs/
而且有趣的是,就在AlexanderWei發(fā)帖之前不久,各家AI模型剛被曝出在IMO中表現(xiàn)不佳,得分最高的Gemini2.5Pro得分僅為13分,OpenAI的o3(high)則拿了7分。OpenAI新模型成績的官宣讓這一事件出現(xiàn)了驚人的反轉(zhuǎn)。
不過,在這些消息發(fā)酵后不久,數(shù)學(xué)家陶哲軒站了出來,勸大家「謹(jǐn)慎看待」。他認(rèn)為,如果沒有嚴(yán)格控制、標(biāo)準(zhǔn)化的測試條件,我們就無法用一種有意義的方式來比較AI模型與人類,并表示自己「不會評論任何在競賽前未公開其方法的自我報告的AI競賽結(jié)果」。這引發(fā)了大家對于AI模型實(shí)際進(jìn)展的思考。
陶哲軒:謹(jǐn)慎看待各大AI模型的IMO成績
陶哲軒在博客中寫道:
人們很容易把當(dāng)下AI的能力當(dāng)成一個「一刀切」的單一指標(biāo):任務(wù)X要么在現(xiàn)有工具的能力之內(nèi),要么不在。實(shí)際上,AI的能力差距可以拉開好幾個數(shù)量級,具體取決于給它什么資源、輔助方式,以及大家如何匯報自己的結(jié)果。
我用一個比喻來說明這一點(diǎn)。就取剛結(jié)束的國際數(shù)學(xué)奧林匹克(IMO)競賽做例子。
標(biāo)準(zhǔn)賽制是:每個國家派6名高中生參賽,由一名領(lǐng)隊(duì)(通常是職業(yè)數(shù)學(xué)家)帶隊(duì)。兩天里,選手每天4.5小時用紙筆獨(dú)立解答3道難題;考試期間選手之間、選手與領(lǐng)隊(duì)之間不得交流,只能請監(jiān)考員澄清題意。閱卷時領(lǐng)隊(duì)為學(xué)生辯護(hù),但并不直接參與做題。能拿到金牌(今年分?jǐn)?shù)線35/42,即6題里完美做出5題)被視為高中生極高的數(shù)學(xué)成就。
但是,如果我們通過各種方式改變奧林匹克競賽的形式,思考一下其難度會發(fā)生什么變化:
給學(xué)生幾天時間來完成每道題目,而不是在四個半小時內(nèi)完成三道題。(稍微延伸一下這個比喻,想象一個科幻場景:學(xué)生仍然只有四個半小時,但領(lǐng)隊(duì)將他們置于某種昂貴且高耗能的時間加速機(jī)器中,在此期間學(xué)生們經(jīng)歷了數(shù)月甚至數(shù)年的時間。)
考試開始前,領(lǐng)隊(duì)以一種學(xué)生認(rèn)為更容易處理的形式重寫題目。
領(lǐng)隊(duì)允許學(xué)生無限制地使用計算器、計算機(jī)代數(shù)系統(tǒng)、形式化證明助手、教科書,或使用互聯(lián)網(wǎng)搜索。
領(lǐng)隊(duì)讓六名隊(duì)員組成的團(tuán)隊(duì)同時解決同一個問題,并就各自的部分進(jìn)展和遇到的死胡同進(jìn)行溝通。
領(lǐng)隊(duì)向?qū)W生提示可能有效的方法,并在某個學(xué)生花費(fèi)太多時間在一個他們知道不太可能成功的方向上時進(jìn)行干預(yù)。
團(tuán)隊(duì)中的六名學(xué)生都提交解答,但領(lǐng)隊(duì)只選擇「最佳」解答提交給競賽,而將其余的丟棄。
如果團(tuán)隊(duì)中沒有一個學(xué)生得出滿意的解答,領(lǐng)隊(duì)則完全不提交任何解答,并悄悄退出比賽,他們的參與記錄也無從知曉。
在上述每一種形式中,提交的解答從技術(shù)上講仍然是由高中參賽選手生成的,而非領(lǐng)隊(duì)。然而,學(xué)生們在競賽中報告的成功率可能會因這些形式上的改變而受到顯著影響;一個在標(biāo)準(zhǔn)考試條件下可能連銅牌水平都達(dá)不到的學(xué)生或團(tuán)隊(duì),在上述某些修改后的形式下,反而可能達(dá)到金牌水平。
因此,在缺乏一種非參賽團(tuán)隊(duì)自選的、受控的測試方法論的情況下,人們應(yīng)該警惕將不同AI模型在IMO這類競賽中的表現(xiàn),或?qū)⑦@些模型與人類參賽者的表現(xiàn)進(jìn)行「同類比較」。
與此相關(guān)的是,對于任何未在賽前披露其方法論的、自我報告的AI競賽表現(xiàn)結(jié)果,我將不予置評。
網(wǎng)友:能寫幾頁紙的證明本身就值得關(guān)注
對于陶哲軒提出的質(zhì)疑,網(wǎng)友展開了廣泛討論。首先需要指出,陶哲軒在帖子中提到的挑戰(zhàn)IMO的AI模型可能不是特指OpenAI的模型,因此里面指出的一些問題對于OpenAI來說可能并不完全適用。
比如,從OpenAI的聲明來看,他們似乎沒有使用工具調(diào)用。
不過,有人反駁說,模型在訓(xùn)練期間就記住了整個互聯(lián)網(wǎng)的語料,即使不調(diào)用工具,讓他們和無法訪問互聯(lián)網(wǎng)的人類學(xué)生相比也不夠公平。
還有人指出,這些問題其實(shí)并不值得糾結(jié)。從OpenAI的這個模型中,我們應(yīng)該看到的是:AI已經(jīng)能夠在一個「難以驗(yàn)證」的領(lǐng)域進(jìn)行超過一個小時的推理并給出正確答案了。
所謂的「難以驗(yàn)證」,相對的是容易驗(yàn)證,比如像AIME(美國數(shù)學(xué)競賽體系中的高階邀請賽)中的數(shù)學(xué)題,每題答案為000-999之間的整數(shù),無需證明過程,僅填數(shù)字。對于這類問題,我們很容易用標(biāo)準(zhǔn)答案來訓(xùn)練模型,用強(qiáng)化學(xué)習(xí)等方法來教會模型解決這類問題。但對于長達(dá)多頁的證明,我們一直缺乏明確的訓(xùn)練范式。這也是OpenAI的研究最令人好奇的地方。
在關(guān)于該模型的討論中,OpenAI推理研究主管NoamBrown也專門指出了這一點(diǎn),而且明確表示他們「還有很大的空間來進(jìn)一步提升測試時的計算能力和效率」。
如果OpenAI真的掌握了讓模型解決「難以驗(yàn)證」的問題的訓(xùn)練方法,他們是不是又往前走了一大步?
目前,這些問題尚無定論。OpenAI的做法也非常神秘:他們提到最近會發(fā)布GPT-5,但又明確指出這個拿到IMO金牌的模型不是GPT-5。這個模型的面世可能還要等幾個月。
Onemorething:領(lǐng)導(dǎo)神秘模型的AlexanderWei是誰?
這個拿到IMO金牌的推理模型來自AlexanderWei領(lǐng)導(dǎo)的一個小組。NoamBrown提到,在新模型中,AlexanderWei采取了一個鮮有人相信的想法,并利用它取得了極少人認(rèn)為可能實(shí)現(xiàn)的結(jié)果。
AlexanderWei專注于LLM的推理能力提升,特別是在數(shù)學(xué)推理和自然語言證明生成方面。他還曾獲得國際信息學(xué)奧林匹克(IOI)金牌。
他于2023年獲得加州大學(xué)伯克利分校的計算機(jī)科學(xué)博士學(xué)位,師從NikaHaghtalab、MichaelI.Jordan及JacobSteinhardt。此前,他于2020年在哈佛大學(xué)完成了計算機(jī)科學(xué)的本碩學(xué)習(xí)。他的研究曾榮獲SODA最佳學(xué)生論文獎和INFORMS拍賣與市場設(shè)計領(lǐng)域的Rothkopf獎。
加入OpenAI之前,Wei博士曾先后在MetaAI(FAIR)、MicrosoftResearch及D.E.Shaw公司積累了豐富的研究與行業(yè)經(jīng)驗(yàn)。
在MetaAI(FAIR)期間,他參與研發(fā)了在策略游戲《外交》(Diplomacy)中達(dá)到人類頂尖水平的AI系統(tǒng)CICERO,該成果發(fā)表于2022年的《Science》雜志。
AlexanderWei小組的工作給最近深陷挖腳危機(jī)的OpenAI注入了一針強(qiáng)心劑,NoamBrown似乎也有意借此向外界傳遞一個重要信號:OpenAI依然是一個前沿技術(shù)實(shí)驗(yàn)室,其擁有的技術(shù)比其他實(shí)驗(yàn)室提前幾個月。只有在這里工作,你才能在第一時間接觸到這些東西。你同意他的看法嗎?
參考鏈接:https://x.com/alexwei_/status/1946477754372985146
萌主千歲萌作《王爺,你家萌妃太囂張了!》,萌出新高度,萌萌噠
寶藏書籍《王爺,你家萌妃太囂張了!》私藏名場面怒刷N遍都值得!
言情小說《王爺,你家萌妃太囂張了!》如何能撩到常年單身的你