機(jī)器之心報(bào)道
機(jī)器之心編輯部
昨天,OpenAI官宣了一個(gè)重磅消息:他們的一個(gè)推理模型在國(guó)際數(shù)學(xué)奧林匹克(IMO)競(jìng)賽中獲得了金牌水平的表現(xiàn)。
官宣該消息的OpenAI研究科學(xué)家AlexanderWei表示,在評(píng)估過(guò)程中,研究團(tuán)隊(duì)嚴(yán)格按照人類選手的比賽規(guī)則進(jìn)行測(cè)試:模型需要在兩個(gè)4.5小時(shí)的考試環(huán)節(jié)中,在沒(méi)有任何工具或網(wǎng)絡(luò)輔助的情況下,閱讀官方題目并撰寫(xiě)自然語(yǔ)言證明。
在評(píng)估中,該模型成功解決了2025年IMO六道題目中的五道,獲得了35分(滿分42分)的成績(jī),足以獲得金牌。每道題目都由三位前IMO獎(jiǎng)牌獲得者獨(dú)立評(píng)分,并在達(dá)成一致后確定最終分?jǐn)?shù)。
在該消息公布后,整個(gè)AI社區(qū)都為之振奮。AlexanderWei還曬出了OpenAI新模型生成的證明過(guò)程。
證明過(guò)程鏈接:https://github.com/aw31/openai-imo-2025-proofs/
而且有趣的是,就在AlexanderWei發(fā)帖之前不久,各家AI模型剛被曝出在IMO中表現(xiàn)不佳,得分最高的Gemini2.5Pro得分僅為13分,OpenAI的o3(high)則拿了7分。OpenAI新模型成績(jī)的官宣讓這一事件出現(xiàn)了驚人的反轉(zhuǎn)。
不過(guò),在這些消息發(fā)酵后不久,數(shù)學(xué)家陶哲軒站了出來(lái),勸大家「謹(jǐn)慎看待」。他認(rèn)為,如果沒(méi)有嚴(yán)格控制、標(biāo)準(zhǔn)化的測(cè)試條件,我們就無(wú)法用一種有意義的方式來(lái)比較AI模型與人類,并表示自己「不會(huì)評(píng)論任何在競(jìng)賽前未公開(kāi)其方法的自我報(bào)告的AI競(jìng)賽結(jié)果」。這引發(fā)了大家對(duì)于AI模型實(shí)際進(jìn)展的思考。
陶哲軒:謹(jǐn)慎看待各大AI模型的IMO成績(jī)
陶哲軒在博客中寫(xiě)道:
人們很容易把當(dāng)下AI的能力當(dāng)成一個(gè)「一刀切」的單一指標(biāo):任務(wù)X要么在現(xiàn)有工具的能力之內(nèi),要么不在。實(shí)際上,AI的能力差距可以拉開(kāi)好幾個(gè)數(shù)量級(jí),具體取決于給它什么資源、輔助方式,以及大家如何匯報(bào)自己的結(jié)果。
我用一個(gè)比喻來(lái)說(shuō)明這一點(diǎn)。就取剛結(jié)束的國(guó)際數(shù)學(xué)奧林匹克(IMO)競(jìng)賽做例子。
標(biāo)準(zhǔn)賽制是:每個(gè)國(guó)家派6名高中生參賽,由一名領(lǐng)隊(duì)(通常是職業(yè)數(shù)學(xué)家)帶隊(duì)。兩天里,選手每天4.5小時(shí)用紙筆獨(dú)立解答3道難題;考試期間選手之間、選手與領(lǐng)隊(duì)之間不得交流,只能請(qǐng)監(jiān)考員澄清題意。閱卷時(shí)領(lǐng)隊(duì)為學(xué)生辯護(hù),但并不直接參與做題。能拿到金牌(今年分?jǐn)?shù)線35/42,即6題里完美做出5題)被視為高中生極高的數(shù)學(xué)成就。
但是,如果我們通過(guò)各種方式改變奧林匹克競(jìng)賽的形式,思考一下其難度會(huì)發(fā)生什么變化:
給學(xué)生幾天時(shí)間來(lái)完成每道題目,而不是在四個(gè)半小時(shí)內(nèi)完成三道題。(稍微延伸一下這個(gè)比喻,想象一個(gè)科幻場(chǎng)景:學(xué)生仍然只有四個(gè)半小時(shí),但領(lǐng)隊(duì)將他們置于某種昂貴且高耗能的時(shí)間加速機(jī)器中,在此期間學(xué)生們經(jīng)歷了數(shù)月甚至數(shù)年的時(shí)間。)
考試開(kāi)始前,領(lǐng)隊(duì)以一種學(xué)生認(rèn)為更容易處理的形式重寫(xiě)題目。
領(lǐng)隊(duì)允許學(xué)生無(wú)限制地使用計(jì)算器、計(jì)算機(jī)代數(shù)系統(tǒng)、形式化證明助手、教科書(shū),或使用互聯(lián)網(wǎng)搜索。
領(lǐng)隊(duì)讓六名隊(duì)員組成的團(tuán)隊(duì)同時(shí)解決同一個(gè)問(wèn)題,并就各自的部分進(jìn)展和遇到的死胡同進(jìn)行溝通。
領(lǐng)隊(duì)向?qū)W生提示可能有效的方法,并在某個(gè)學(xué)生花費(fèi)太多時(shí)間在一個(gè)他們知道不太可能成功的方向上時(shí)進(jìn)行干預(yù)。
團(tuán)隊(duì)中的六名學(xué)生都提交解答,但領(lǐng)隊(duì)只選擇「最佳」解答提交給競(jìng)賽,而將其余的丟棄。
如果團(tuán)隊(duì)中沒(méi)有一個(gè)學(xué)生得出滿意的解答,領(lǐng)隊(duì)則完全不提交任何解答,并悄悄退出比賽,他們的參與記錄也無(wú)從知曉。
在上述每一種形式中,提交的解答從技術(shù)上講仍然是由高中參賽選手生成的,而非領(lǐng)隊(duì)。然而,學(xué)生們?cè)诟?jìng)賽中報(bào)告的成功率可能會(huì)因這些形式上的改變而受到顯著影響;一個(gè)在標(biāo)準(zhǔn)考試條件下可能連銅牌水平都達(dá)不到的學(xué)生或團(tuán)隊(duì),在上述某些修改后的形式下,反而可能達(dá)到金牌水平。
因此,在缺乏一種非參賽團(tuán)隊(duì)自選的、受控的測(cè)試方法論的情況下,人們應(yīng)該警惕將不同AI模型在IMO這類競(jìng)賽中的表現(xiàn),或?qū)⑦@些模型與人類參賽者的表現(xiàn)進(jìn)行「同類比較」。
與此相關(guān)的是,對(duì)于任何未在賽前披露其方法論的、自我報(bào)告的AI競(jìng)賽表現(xiàn)結(jié)果,我將不予置評(píng)。
網(wǎng)友:能寫(xiě)幾頁(yè)紙的證明本身就值得關(guān)注
對(duì)于陶哲軒提出的質(zhì)疑,網(wǎng)友展開(kāi)了廣泛討論。首先需要指出,陶哲軒在帖子中提到的挑戰(zhàn)IMO的AI模型可能不是特指OpenAI的模型,因此里面指出的一些問(wèn)題對(duì)于OpenAI來(lái)說(shuō)可能并不完全適用。
比如,從OpenAI的聲明來(lái)看,他們似乎沒(méi)有使用工具調(diào)用。
不過(guò),有人反駁說(shuō),模型在訓(xùn)練期間就記住了整個(gè)互聯(lián)網(wǎng)的語(yǔ)料,即使不調(diào)用工具,讓他們和無(wú)法訪問(wèn)互聯(lián)網(wǎng)的人類學(xué)生相比也不夠公平。
還有人指出,這些問(wèn)題其實(shí)并不值得糾結(jié)。從OpenAI的這個(gè)模型中,我們應(yīng)該看到的是:AI已經(jīng)能夠在一個(gè)「難以驗(yàn)證」的領(lǐng)域進(jìn)行超過(guò)一個(gè)小時(shí)的推理并給出正確答案了。
所謂的「難以驗(yàn)證」,相對(duì)的是容易驗(yàn)證,比如像AIME(美國(guó)數(shù)學(xué)競(jìng)賽體系中的高階邀請(qǐng)賽)中的數(shù)學(xué)題,每題答案為000-999之間的整數(shù),無(wú)需證明過(guò)程,僅填數(shù)字。對(duì)于這類問(wèn)題,我們很容易用標(biāo)準(zhǔn)答案來(lái)訓(xùn)練模型,用強(qiáng)化學(xué)習(xí)等方法來(lái)教會(huì)模型解決這類問(wèn)題。但對(duì)于長(zhǎng)達(dá)多頁(yè)的證明,我們一直缺乏明確的訓(xùn)練范式。這也是OpenAI的研究最令人好奇的地方。
在關(guān)于該模型的討論中,OpenAI推理研究主管NoamBrown也專門(mén)指出了這一點(diǎn),而且明確表示他們「還有很大的空間來(lái)進(jìn)一步提升測(cè)試時(shí)的計(jì)算能力和效率」。
如果OpenAI真的掌握了讓模型解決「難以驗(yàn)證」的問(wèn)題的訓(xùn)練方法,他們是不是又往前走了一大步?
目前,這些問(wèn)題尚無(wú)定論。OpenAI的做法也非常神秘:他們提到最近會(huì)發(fā)布GPT-5,但又明確指出這個(gè)拿到IMO金牌的模型不是GPT-5。這個(gè)模型的面世可能還要等幾個(gè)月。
Onemorething:領(lǐng)導(dǎo)神秘模型的AlexanderWei是誰(shuí)?
這個(gè)拿到IMO金牌的推理模型來(lái)自AlexanderWei領(lǐng)導(dǎo)的一個(gè)小組。NoamBrown提到,在新模型中,AlexanderWei采取了一個(gè)鮮有人相信的想法,并利用它取得了極少人認(rèn)為可能實(shí)現(xiàn)的結(jié)果。
AlexanderWei專注于LLM的推理能力提升,特別是在數(shù)學(xué)推理和自然語(yǔ)言證明生成方面。他還曾獲得國(guó)際信息學(xué)奧林匹克(IOI)金牌。
他于2023年獲得加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)博士學(xué)位,師從NikaHaghtalab、MichaelI.Jordan及JacobSteinhardt。此前,他于2020年在哈佛大學(xué)完成了計(jì)算機(jī)科學(xué)的本碩學(xué)習(xí)。他的研究曾榮獲SODA最佳學(xué)生論文獎(jiǎng)和INFORMS拍賣與市場(chǎng)設(shè)計(jì)領(lǐng)域的Rothkopf獎(jiǎng)。
加入OpenAI之前,Wei博士曾先后在MetaAI(FAIR)、MicrosoftResearch及D.E.Shaw公司積累了豐富的研究與行業(yè)經(jīng)驗(yàn)。
在MetaAI(FAIR)期間,他參與研發(fā)了在策略游戲《外交》(Diplomacy)中達(dá)到人類頂尖水平的AI系統(tǒng)CICERO,該成果發(fā)表于2022年的《Science》雜志。
AlexanderWei小組的工作給最近深陷挖腳危機(jī)的OpenAI注入了一針強(qiáng)心劑,NoamBrown似乎也有意借此向外界傳遞一個(gè)重要信號(hào):OpenAI依然是一個(gè)前沿技術(shù)實(shí)驗(yàn)室,其擁有的技術(shù)比其他實(shí)驗(yàn)室提前幾個(gè)月。只有在這里工作,你才能在第一時(shí)間接觸到這些東西。你同意他的看法嗎?
參考鏈接:https://x.com/alexwei_/status/1946477754372985146