司興德
機(jī)器之心報(bào)道
機(jī)器之心編輯部
昨天,OpenAI官宣了一個(gè)重磅消息:他們的一個(gè)推理模型在國(guó)際數(shù)學(xué)奧林匹克(IMO)競(jìng)賽中獲得了金牌水平的表現(xiàn)。
官宣該消息的OpenAI研究科學(xué)家AlexanderWei表示,在評(píng)估過程中,研究團(tuán)隊(duì)嚴(yán)格按照人類選手的比賽規(guī)則進(jìn)行測(cè)試:模型需要在兩個(gè)4.5小時(shí)的考試環(huán)節(jié)中,在沒有任何工具或網(wǎng)絡(luò)輔助的情況下,閱讀官方題目并撰寫自然語(yǔ)言證明。
在評(píng)估中,該模型成功解決了2025年IMO六道題目中的五道,獲得了35分(滿分42分)的成績(jī),足以獲得金牌。每道題目都由三位前IMO獎(jiǎng)牌獲得者獨(dú)立評(píng)分,并在達(dá)成一致后確定最終分?jǐn)?shù)。
在該消息公布后,整個(gè)AI社區(qū)都為之振奮。AlexanderWei還曬出了OpenAI新模型生成的證明過程。
證明過程鏈接:https://github.com/aw31/openai-imo-2025-proofs/
而且有趣的是,就在AlexanderWei發(fā)帖之前不久,各家AI模型剛被曝出在IMO中表現(xiàn)不佳,得分最高的Gemini2.5Pro得分僅為13分,OpenAI的o3(high)則拿了7分。OpenAI新模型成績(jī)的官宣讓這一事件出現(xiàn)了驚人的反轉(zhuǎn)。
不過,在這些消息發(fā)酵后不久,數(shù)學(xué)家陶哲軒站了出來,勸大家「謹(jǐn)慎看待」。他認(rèn)為,如果沒有嚴(yán)格控制、標(biāo)準(zhǔn)化的測(cè)試條件,我們就無法用一種有意義的方式來比較AI模型與人類,并表示自己「不會(huì)評(píng)論任何在競(jìng)賽前未公開其方法的自我報(bào)告的AI競(jìng)賽結(jié)果」。這引發(fā)了大家對(duì)于AI模型實(shí)際進(jìn)展的思考。
陶哲軒:謹(jǐn)慎看待各大AI模型的IMO成績(jī)
陶哲軒在博客中寫道:
人們很容易把當(dāng)下AI的能力當(dāng)成一個(gè)「一刀切」的單一指標(biāo):任務(wù)X要么在現(xiàn)有工具的能力之內(nèi),要么不在。實(shí)際上,AI的能力差距可以拉開好幾個(gè)數(shù)量級(jí),具體取決于給它什么資源、輔助方式,以及大家如何匯報(bào)自己的結(jié)果。
我用一個(gè)比喻來說明這一點(diǎn)。就取剛結(jié)束的國(guó)際數(shù)學(xué)奧林匹克(IMO)競(jìng)賽做例子。
標(biāo)準(zhǔn)賽制是:每個(gè)國(guó)家派6名高中生參賽,由一名領(lǐng)隊(duì)(通常是職業(yè)數(shù)學(xué)家)帶隊(duì)。兩天里,選手每天4.5小時(shí)用紙筆獨(dú)立解答3道難題;考試期間選手之間、選手與領(lǐng)隊(duì)之間不得交流,只能請(qǐng)監(jiān)考員澄清題意。閱卷時(shí)領(lǐng)隊(duì)為學(xué)生辯護(hù),但并不直接參與做題。能拿到金牌(今年分?jǐn)?shù)線35/42,即6題里完美做出5題)被視為高中生極高的數(shù)學(xué)成就。
但是,如果我們通過各種方式改變奧林匹克競(jìng)賽的形式,思考一下其難度會(huì)發(fā)生什么變化:
給學(xué)生幾天時(shí)間來完成每道題目,而不是在四個(gè)半小時(shí)內(nèi)完成三道題。(稍微延伸一下這個(gè)比喻,想象一個(gè)科幻場(chǎng)景:學(xué)生仍然只有四個(gè)半小時(shí),但領(lǐng)隊(duì)將他們置于某種昂貴且高耗能的時(shí)間加速機(jī)器中,在此期間學(xué)生們經(jīng)歷了數(shù)月甚至數(shù)年的時(shí)間。)考試開始前,領(lǐng)隊(duì)以一種學(xué)生認(rèn)為更容易處理的形式重寫題目。領(lǐng)隊(duì)允許學(xué)生無限制地使用計(jì)算器、計(jì)算機(jī)代數(shù)系統(tǒng)、形式化證明助手、教科書,或使用互聯(lián)網(wǎng)搜索。領(lǐng)隊(duì)讓六名隊(duì)員組成的團(tuán)隊(duì)同時(shí)解決同一個(gè)問題,并就各自的部分進(jìn)展和遇到的死胡同進(jìn)行溝通。領(lǐng)隊(duì)向?qū)W生提示可能有效的方法,并在某個(gè)學(xué)生花費(fèi)太多時(shí)間在一個(gè)他們知道不太可能成功的方向上時(shí)進(jìn)行干預(yù)。團(tuán)隊(duì)中的六名學(xué)生都提交解答,但領(lǐng)隊(duì)只選擇「最佳」解答提交給競(jìng)賽,而將其余的丟棄。如果團(tuán)隊(duì)中沒有一個(gè)學(xué)生得出滿意的解答,領(lǐng)隊(duì)則完全不提交任何解答,并悄悄退出比賽,他們的參與記錄也無從知曉。
在上述每一種形式中,提交的解答從技術(shù)上講仍然是由高中參賽選手生成的,而非領(lǐng)隊(duì)。然而,學(xué)生們?cè)诟?jìng)賽中報(bào)告的成功率可能會(huì)因這些形式上的改變而受到顯著影響;一個(gè)在標(biāo)準(zhǔn)考試條件下可能連銅牌水平都達(dá)不到的學(xué)生或團(tuán)隊(duì),在上述某些修改后的形式下,反而可能達(dá)到金牌水平。
因此,在缺乏一種非參賽團(tuán)隊(duì)自選的、受控的測(cè)試方法論的情況下,人們應(yīng)該警惕將不同AI模型在IMO這類競(jìng)賽中的表現(xiàn),或?qū)⑦@些模型與人類參賽者的表現(xiàn)進(jìn)行「同類比較」。
與此相關(guān)的是,對(duì)于任何未在賽前披露其方法論的、自我報(bào)告的AI競(jìng)賽表現(xiàn)結(jié)果,我將不予置評(píng)。
網(wǎng)友:能寫幾頁(yè)紙的證明本身就值得關(guān)注
對(duì)于陶哲軒提出的質(zhì)疑,網(wǎng)友展開了廣泛討論。首先需要指出,陶哲軒在帖子中提到的挑戰(zhàn)IMO的AI模型可能不是特指OpenAI的模型,因此里面指出的一些問題對(duì)于OpenAI來說可能并不完全適用。
比如,從OpenAI的聲明來看,他們似乎沒有使用工具調(diào)用。
不過,有人反駁說,模型在訓(xùn)練期間就記住了整個(gè)互聯(lián)網(wǎng)的語(yǔ)料,即使不調(diào)用工具,讓他們和無法訪問互聯(lián)網(wǎng)的人類學(xué)生相比也不夠公平。
還有人指出,這些問題其實(shí)并不值得糾結(jié)。從OpenAI的這個(gè)模型中,我們應(yīng)該看到的是:AI已經(jīng)能夠在一個(gè)「難以驗(yàn)證」的領(lǐng)域進(jìn)行超過一個(gè)小時(shí)的推理并給出正確答案了。
所謂的「難以驗(yàn)證」,相對(duì)的是容易驗(yàn)證,比如像AIME(美國(guó)數(shù)學(xué)競(jìng)賽體系中的高階邀請(qǐng)賽)中的數(shù)學(xué)題,每題答案為000-999之間的整數(shù),無需證明過程,僅填數(shù)字。對(duì)于這類問題,我們很容易用標(biāo)準(zhǔn)答案來訓(xùn)練模型,用強(qiáng)化學(xué)習(xí)等方法來教會(huì)模型解決這類問題。但對(duì)于長(zhǎng)達(dá)多頁(yè)的證明,我們一直缺乏明確的訓(xùn)練范式。這也是OpenAI的研究最令人好奇的地方。
在關(guān)于該模型的討論中,OpenAI推理研究主管NoamBrown也專門指出了這一點(diǎn),而且明確表示他們「還有很大的空間來進(jìn)一步提升測(cè)試時(shí)的計(jì)算能力和效率」。
如果OpenAI真的掌握了讓模型解決「難以驗(yàn)證」的問題的訓(xùn)練方法,他們是不是又往前走了一大步?
目前,這些問題尚無定論。OpenAI的做法也非常神秘:他們提到最近會(huì)發(fā)布GPT-5,但又明確指出這個(gè)拿到IMO金牌的模型不是GPT-5。這個(gè)模型的面世可能還要等幾個(gè)月。
Onemorething:領(lǐng)導(dǎo)神秘模型的AlexanderWei是誰(shuí)?
這個(gè)拿到IMO金牌的推理模型來自AlexanderWei領(lǐng)導(dǎo)的一個(gè)小組。NoamBrown提到,在新模型中,AlexanderWei采取了一個(gè)鮮有人相信的想法,并利用它取得了極少人認(rèn)為可能實(shí)現(xiàn)的結(jié)果。
AlexanderWei專注于LLM的推理能力提升,特別是在數(shù)學(xué)推理和自然語(yǔ)言證明生成方面。他還曾獲得國(guó)際信息學(xué)奧林匹克(IOI)金牌。
他于2023年獲得加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)博士學(xué)位,師從NikaHaghtalab、MichaelI.Jordan及JacobSteinhardt。此前,他于2020年在哈佛大學(xué)完成了計(jì)算機(jī)科學(xué)的本碩學(xué)習(xí)。他的研究曾榮獲SODA最佳學(xué)生論文獎(jiǎng)和INFORMS拍賣與市場(chǎng)設(shè)計(jì)領(lǐng)域的Rothkopf獎(jiǎng)。
加入OpenAI之前,Wei博士曾先后在MetaAI(FAIR)、MicrosoftResearch及D.E.Shaw公司積累了豐富的研究與行業(yè)經(jīng)驗(yàn)。
在MetaAI(FAIR)期間,他參與研發(fā)了在策略游戲《外交》(Diplomacy)中達(dá)到人類頂尖水平的AI系統(tǒng)CICERO,該成果發(fā)表于2022年的《Science》雜志。
AlexanderWei小組的工作給最近深陷挖腳危機(jī)的OpenAI注入了一針強(qiáng)心劑,NoamBrown似乎也有意借此向外界傳遞一個(gè)重要信號(hào):OpenAI依然是一個(gè)前沿技術(shù)實(shí)驗(yàn)室,其擁有的技術(shù)比其他實(shí)驗(yàn)室提前幾個(gè)月。只有在這里工作,你才能在第一時(shí)間接觸到這些東西。你同意他的看法嗎?
參考鏈接:https://x.com/alexwei_/status/1946477754372985146
https://x.com/polynoamial/status/1946478252496695523
https://mathstodon.xyz/@tao/114881420636881657
重回大唐 爭(zhēng)霸天下天寶五載, 大唐建國(guó)已過百年, 經(jīng)歷的近數(shù)十年的治國(guó), 已知天命的李隆基有些疲憊了, 自從他冊(cè)封了楊氏為貴妃后, 他的心思也漸漸地離開了枯燥而繁瑣的朝政 歡歌慢舞凝絲竹, 盡日君王看不足。 他開始縱情于音樂歌舞之中, 從此皇帝不再早朝......而就在這年的春天, 安西的粟樓烽戍堡來了一名新人, 一名后世而來的穿越者, 先入戍邊軍旅, 外拒狄夷初現(xiàn)崢嶸, 再送公主進(jìn)京, 踏入大唐權(quán)利中心。 短短的時(shí)光, 他從一個(gè)后世的鐵血男兒, 變成了一位智勇雙全的盛世英雄。 這是一部篇幅宏大的 唐穿 大作, 文筆高超的起點(diǎn)著名作者高月, 為您呈現(xiàn)的是一出精彩絕倫的盛唐穿越大戲, 塞外兵戈漸起, 朝堂刀光劍影, 坐看江山如畫, 卻又有美人如玉, 一時(shí)間江山美人, 萬般盛唐迤邐, 波瀾壯闊盡在本書。來源:紅網(wǎng)
作者:王婉萍
編輯:樂凡靈
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。