超經(jīng)典!很難想這是20年前的動(dòng)畫電影!小朋友看會(huì)被嚇得睡不著吧
循環(huán)歌單|“法修散打の小曲”|《室內(nèi)系的TrackMaker (Melodic Minor版)》
文|硅谷101
最近,2025年國際數(shù)學(xué)奧林匹克(IMO)在澳大利亞落幕的兩天內(nèi),AI界因“IMO金牌認(rèn)證”,開展了一場(chǎng)人才與技術(shù)話語權(quán)的雙重爭(zhēng)奪戰(zhàn)。
OpenAI搶先宣布其保密推理模型以35分達(dá)到金牌線,DeepMind兩天后也亮出IMO官方認(rèn)證的同等成績單。這標(biāo)志著AI首次在IMO中比肩頂尖學(xué)生,實(shí)現(xiàn)從2024年銀牌到2025年雙金牌的數(shù)學(xué)推理能力躍升。
伴隨技術(shù)進(jìn)展而來的,是行業(yè)競(jìng)爭(zhēng)“好戲”:當(dāng)DemisHassabis公開譴責(zé)OpenAI提前泄露成績時(shí),媒體曝出DeepMind金牌團(tuán)隊(duì)三名核心研究員已被Meta挖角。
AI數(shù)學(xué)能力的進(jìn)步速度令人驚嘆。但I(xiàn)MO金牌究竟意味著什么?這是數(shù)學(xué)界的AlphaGo時(shí)刻嗎?AI將會(huì)成為數(shù)學(xué)研究中值得信賴的合作者,還是淪為市場(chǎng)邏輯下的技術(shù)產(chǎn)品,消解數(shù)學(xué)的真正意義?
本篇文章,我們邀請(qǐng)了IMO金牌得主,以親歷者的角度來聊聊兩大AI的解題邏輯和數(shù)學(xué)水平,并透視競(jìng)賽背后的技術(shù)突破與數(shù)學(xué)的未來。
01前后獲得IMO金牌,DeepMind與OpenAI之戰(zhàn)
一覺醒來,我以為我穿越回高中了:朋友圈竟然有人提起IMO(國際數(shù)學(xué)奧林匹克競(jìng)賽,InternationalMathematicalOlympiad,面向高中生的國際性數(shù)學(xué)競(jìng)賽)。記得當(dāng)年還是萬里挑一的學(xué)霸才會(huì)去挑戰(zhàn)這個(gè)比賽,最近卻被AI拿下了:OpenAI和谷歌DeepMind前后宣布他們的模型達(dá)到了IMO金牌的標(biāo)準(zhǔn)。
這個(gè)“前后”雖然只差兩天,但卻充滿了戲劇性:今年的IMO是7月20日周日在澳大利亞閉幕,而OpenAI在周五,也就是7月18日晚上,就早早宣布了這個(gè)消息。
研究員AlexanderWei在X上說:OpenAI最新的實(shí)驗(yàn)性推理大模型,實(shí)現(xiàn)了人工智能領(lǐng)域長期以來的一項(xiàng)重大挑戰(zhàn),在IMO競(jìng)賽的6道題目中解出了5道,并且最終獲得了35分。IMO的滿分是42分,而35分恰好就達(dá)到了金牌的門檻。
兩天之后,DeepMind也下場(chǎng)宣布:GeminiDeepThink的進(jìn)階版本模型也達(dá)到了這一成就。DeepMind的模型在整個(gè)過程中完全使用自然語言操作,最后同樣獲得了35分的成績,并且IMO官方組委會(huì)也證明了這一成績。
IMO主席GregorDolinar說:DeepMind的解題在許多方面都令人驚嘆,閱卷官認(rèn)為這些解答清晰、嚴(yán)謹(jǐn),而且大多數(shù)都很容易理解。
這個(gè)組委會(huì)親自背書的待遇,卻沒有給到OpenAI。DemisHassabis甚至特意下場(chǎng),在X上表示:我們之所以沒有周五公布,是因?yàn)槲覀冏鹬豂MO組委會(huì)最初的請(qǐng)求。所有AI實(shí)驗(yàn)室都應(yīng)該在官方成績經(jīng)過獨(dú)立專家驗(yàn)證,并且參賽學(xué)生已經(jīng)獲得應(yīng)有的表彰之后,才公開各自的結(jié)果。
他還說:我們的模型是第一個(gè)獲得官方“金牌水平”評(píng)級(jí)的AI系統(tǒng)——這簡(jiǎn)直就差點(diǎn)OpenAI的名了。OpenAI之前的歡呼好像就沒那么名正言順了。
但更戲劇性的是,隔天媒體就爆出,DeepMind這一金牌模型背后的研究團(tuán)隊(duì)中,有三名研究員已經(jīng)被Meta挖走了。在此之前的六個(gè)月內(nèi),DeepMind已經(jīng)有20名員工被挖去了微軟。
看來這場(chǎng)頂尖實(shí)驗(yàn)室之間的斗爭(zhēng),還在愈演愈烈。在吃瓜的同時(shí),我們還是回到IMO競(jìng)賽這個(gè)話題上:AI達(dá)到金牌水平,到底意味著什么?
首先要知道的是,這還遠(yuǎn)遠(yuǎn)說不上是數(shù)學(xué)領(lǐng)域的AlphaGo時(shí)刻。當(dāng)年AlphaGo擊敗了世界圍棋冠軍李世石,震驚全球,最核心的原因是圍棋被認(rèn)為是人類智慧最難被機(jī)器超越的領(lǐng)域之一。
2022年DeepMind的AlphaFold準(zhǔn)確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),也被稱為是生物學(xué)的AlphaGo時(shí)刻,我們硅谷101在去年的文章《AI“入侵”生物醫(yī)療史》里詳細(xì)解讀了它的重要性。
但是這次,有72位高中生的成績也達(dá)到了金牌標(biāo)準(zhǔn),其中5位獲得了42分滿分的成績,也就是完美地解答了6道題,但兩個(gè)AI模型都只做出來了5道。所以要說AI在數(shù)學(xué)能力上已經(jīng)勝過人類,還為時(shí)過早。
但即使沒有到AlphaGo的標(biāo)準(zhǔn),IMO金牌的結(jié)果也足夠證明當(dāng)下大模型優(yōu)秀的數(shù)學(xué)能力了。紐約大學(xué)的計(jì)算機(jī)教授GaryMarcus和ErnestDavis就評(píng)價(jià)說:非常了不起。
02作為能力標(biāo)準(zhǔn)的IMO,證明了AI的數(shù)學(xué)推理能力
將解答IMO題目作為評(píng)估AI推理能力的標(biāo)準(zhǔn),其實(shí)早有先例。
比如去年,DeepMind發(fā)布了兩個(gè)專為數(shù)學(xué)設(shè)計(jì)的模型:AlphaGeometry和AlphaProof。在IMO的六道題中,它們解出了四道,成為第一批達(dá)到銀牌標(biāo)準(zhǔn)的AI系統(tǒng)。
圖源:GoogleDeepMind
不過,這兩個(gè)模型當(dāng)時(shí)并不是用自然語言來解題,而是結(jié)合了“形式化證明”方法。簡(jiǎn)單來說,形式化證明(FormalProof)就是把數(shù)學(xué)問題轉(zhuǎn)成機(jī)器能“看懂”的語言,再由AI用這種形式化語言一步步寫出邏輯嚴(yán)謹(jǐn)、可驗(yàn)證的解答。
而這套語言的寫作工具,就叫做Lean(一種現(xiàn)代的定理證明助手和函數(shù)式編程語言,由微軟研究院開發(fā)),類似編程語言。
為了讓AI解題,研究者得先把自然語言題目“翻譯”成Lean,讓AI去處理,再轉(zhuǎn)回人類可讀的答案。整個(gè)過程耗時(shí)長達(dá)三天——遠(yuǎn)超IMO給高中生兩天、共9小時(shí)的比賽限制。
但這一次,DeepMind最新的GeminiDeepThink模型在完全自然語言輸入輸出的條件下,達(dá)到了IMO的金牌標(biāo)準(zhǔn)。也就是說,AI直接從自然語言讀題、用自然語言作答——沒有再依賴Lean或其他形式化工具。這背后的意義很重要。
一直以來,很多人都認(rèn)為語言模型不具備真正的推理能力。比如問它:“strawberry這個(gè)詞里有幾個(gè)r?”,它可能就會(huì)開始“內(nèi)耗”,反復(fù)計(jì)算還出錯(cuò)。因?yàn)樽匀徽Z言里沒有明確的邏輯結(jié)構(gòu),推理過程也就不穩(wěn)定。這也是為什么過去像AlphaProof那樣的模型,需要把自然語言轉(zhuǎn)成Lean,繞開語言的不確定性。
但現(xiàn)在,DeepMind證明了:語言模型本身,也可以完成高難度數(shù)學(xué)推理。雖然DeepMind和OpenAI都沒有公開模型的具體訓(xùn)練過程,但和一年前相比,這確實(shí)是一次重大進(jìn)展。
李元杉圣母大學(xué)邏輯學(xué)博士生:現(xiàn)在AI大家都知道是根據(jù)很多技術(shù)、從很多數(shù)據(jù)當(dāng)中學(xué)習(xí)出來的一些參數(shù),這樣的一個(gè)結(jié)果,就不是說,我們預(yù)先給定了很多邏輯規(guī)則,然后它去執(zhí)行。同理,在數(shù)學(xué)上,最早期的用電腦來做數(shù)學(xué)的人會(huì)認(rèn)為,把數(shù)學(xué)全部都形式化,然后運(yùn)用這些規(guī)則,是解決數(shù)學(xué)問題的方法。但是現(xiàn)在,我們更多地看到這些公司會(huì)想辦法把兩者結(jié)合起來,甚至是直接使用語言模型去輸出自然語言的數(shù)學(xué),而完全不借助于形式化系統(tǒng)。
此前以GaryMarcus為代表的AI學(xué)者一直認(rèn)為,語言模型無法獨(dú)立完成真正的數(shù)學(xué)推理。在他的設(shè)想中,AI模型必須依托像Lean這樣的形式化語言,輸出可以機(jī)器驗(yàn)證的邏輯結(jié)構(gòu),最后再人工轉(zhuǎn)換成自然語言。也就是說,只有像AlphaProof這樣的“混合模型”才有可能達(dá)到數(shù)學(xué)研究的標(biāo)準(zhǔn)。
因此,GeminiDeepThink的成功,無疑在一定程度上挑戰(zhàn)了GaryMarcus的觀點(diǎn)。
李元杉圣母大學(xué)邏輯學(xué)博士生:你可以看到DeepMind發(fā)布了自己的模型生成出來的解答,這個(gè)解答就完全是自然語言了,就沒有一些代碼之類的。但是相比于去年使用的那一套系統(tǒng)就是,它可能最終輸出也是自然語言的,但是它需要先把這些東西翻譯成一個(gè)邏輯語言,然后進(jìn)行一些形式化的證明之后,再輸出回來??赡苓^往數(shù)學(xué)家會(huì)把用電腦輔助數(shù)學(xué)跟形式化方法等同起來,但是經(jīng)過了這些語言模型的發(fā)展,以及它們證明了自己能夠顯示出一定的數(shù)學(xué)能力之后,他們可能會(huì)改變這個(gè)想法。03前IMO金牌得主點(diǎn)評(píng),OpenAI與DeepMind解題差異
為了讓大家直觀地對(duì)比AI和人類選手的解答,我們邀請(qǐng)了前IMO中國國家隊(duì)成員胡蘇麟,為我們分享他對(duì)AI回答的感受。
他告訴我們,AI在作答的五道題中解答思路清晰、邏輯鏈條完整,獲得滿分是實(shí)至名歸的。
但在具體題目里對(duì)比兩個(gè)AI的回答,還是能發(fā)現(xiàn)一些有意思的情況。就比如第二題,一道平面幾何題。
胡蘇麟2019年IMO金牌得主:平面幾何題對(duì)于AI來說,算是最容易做的題型之一了。在這里,兩個(gè)AI也給出了不一樣的做法。DeepMind的做法是一個(gè)更加幾何的,更加自然的做法,我覺得也是更接近于正常人類選手能想到的做法。相比起來,OpenAI的方法就非常暴力,因?yàn)樗苯邮褂昧私馕鰩缀蔚氖侄?。用解析幾何的辦法,直接把這道幾何題轉(zhuǎn)化成了一道代數(shù)題,并且在它的解答過程中出現(xiàn)了巨量的計(jì)算。不過通常來說,人類選手通常不會(huì)在考場(chǎng)上做那么大量的計(jì)算。所以這個(gè)方法可能對(duì)AI來說,實(shí)行起來比人類選手要容易。
他還提到,兩個(gè)AI作答時(shí)的語言風(fēng)格也不同于人類選手。
胡蘇麟2019年IMO金牌得主:兩個(gè)AI的一個(gè)共同點(diǎn)就是:解答過程中會(huì)不斷引入新符號(hào),來定義一些概念或者公式。這個(gè)選項(xiàng)在我上大學(xué)的高等數(shù)學(xué)的學(xué)習(xí)中比較經(jīng)常出現(xiàn),但在我以前的競(jìng)賽生涯中不太經(jīng)常出現(xiàn)。原因是高中的競(jìng)賽題沒有那么復(fù)雜,如果在解答過程中不斷引入新的符號(hào),反而會(huì)增加我們理解解答過程以及解答思路的難度。兩個(gè)AI的語言風(fēng)格也有非常明顯的區(qū)別。比如說OpenAI在它的解答過程中會(huì)經(jīng)常出現(xiàn)一些人性化的描述詞,比如“XXXsofargood”或者“XXX我們完成了這一步”或者“nice”之類的詞匯。在一些方面也會(huì)適當(dāng)省略一些細(xì)節(jié),比如它會(huì)說“很容易驗(yàn)證”或者“根據(jù)某某公式可以很容易檢查下面這些東西是對(duì)的?!彼钥偟膩碚f,它給我的感覺像是一個(gè)在課堂上給學(xué)生講題的老師,所以它會(huì)經(jīng)常使用一些口語化的語言來鼓勵(lì)學(xué)生,循循善誘,比如它會(huì)說“我們已經(jīng)完成了關(guān)鍵的一步,非常棒”,又比如“我們已經(jīng)完成了這個(gè)結(jié)論,真是一個(gè)漂亮的結(jié)論”之類的話,來強(qiáng)調(diào)關(guān)鍵的步驟。
而相比之下,DeepMind所用的語言則更加書面化,像是在閱讀一篇數(shù)學(xué)論文。
04AI用于數(shù)學(xué)研究的前景,學(xué)術(shù)界褒貶不一
雖然和之前相比,大模型在IMO競(jìng)賽中的表現(xiàn)已經(jīng)達(dá)到了質(zhì)的飛躍。但我們的采訪嘉賓告訴我們,IMO終究只是數(shù)學(xué)能力的一個(gè)側(cè)面:它是在一個(gè)限時(shí)、封閉的環(huán)境中,需要參賽者進(jìn)行巧妙的思考,從而找到固定答案的一個(gè)競(jìng)賽。
這不是我們?cè)谏钪匈I菜逛街要用的數(shù)學(xué),也不是數(shù)學(xué)家要窮盡一生思考的目標(biāo)。
李元衫圣母大學(xué)邏輯學(xué)博士生:真正的數(shù)學(xué)研究,有時(shí)候目標(biāo)可能更加開放,比如說,有些人可能會(huì)覺得自己做研究的目的是描述出一種現(xiàn)象,或者是發(fā)現(xiàn)一些具有規(guī)律性的結(jié)構(gòu)。但是在你真正做出這些發(fā)現(xiàn)之前,你能發(fā)現(xiàn)出什么是不知道的。所以說,相比于解決真正的開放性數(shù)學(xué)問題,可能解決競(jìng)賽問題對(duì)于這些模型來說,現(xiàn)在是更可及了。
在AI不斷發(fā)展的過程中,數(shù)學(xué)學(xué)界也分裂成了兩派:有人認(rèn)為,AI在數(shù)學(xué)和推理能力上的進(jìn)展,已經(jīng)能夠在很大程度上幫助數(shù)學(xué)家。
比如澳籍華人數(shù)學(xué)家陶哲軒(TerenceTao,菲爾茲獎(jiǎng)得主,被譽(yù)為“數(shù)學(xué)界的莫扎特”)就說:2023年,AI已經(jīng)能夠?yàn)槁殬I(yè)數(shù)學(xué)家生成有啟發(fā)性的提示和有前景的思路。當(dāng)它與形式化證明及驗(yàn)證、搜索引擎、符號(hào)數(shù)學(xué)工具等結(jié)合使用時(shí),2026年的AI將會(huì)成為數(shù)學(xué)研究中值得信賴的合作者。
但與此同時(shí),也有數(shù)學(xué)家對(duì)AI不那么信任。哥倫比亞大學(xué)的數(shù)學(xué)家MichaelHarris就在自己的Substack博客中提出了對(duì)AI數(shù)學(xué)的批判。
他提出,數(shù)學(xué)的真正意義在于自由探索和內(nèi)在洞見,而不是將其淪為市場(chǎng)邏輯下的技術(shù)產(chǎn)品。而像Lean這樣的計(jì)算機(jī)語言,卻將數(shù)學(xué)簡(jiǎn)化成機(jī)器能看得懂的邏輯,讓他鐘愛的數(shù)學(xué)失去了自由創(chuàng)造和思辨力。
同時(shí),他十分關(guān)注數(shù)學(xué)研究資本化的趨勢(shì),擔(dān)心類似Google、NSA(美國國家安全局,NationalSecurityAgency)這樣的資助者傾向于以應(yīng)用價(jià)值衡量數(shù)學(xué),而忽視其內(nèi)在價(jià)值。
他批評(píng)當(dāng)前關(guān)于AI輔助數(shù)學(xué)的討論過分關(guān)注“它管用嗎”“會(huì)帶來效益嗎”,卻忽略了“對(duì)誰有益?”“為什么需要它?”這類值得探討的根本問題。
我們知道,李世石在被AlphaGo擊敗后選擇提前退役。頂尖的數(shù)學(xué)家們會(huì)因?yàn)锳I在數(shù)學(xué)上的成就,懷疑自己研究的意義嗎?DeepMind的PushmeetKohli在去年AlphaProof達(dá)到IMO銀牌標(biāo)準(zhǔn)后就說,他認(rèn)為這會(huì)促進(jìn)數(shù)學(xué)學(xué)術(shù)研究。
PushmeetKohliDeepMind科學(xué)家:即使在圍棋的例子中,我們看到的是,當(dāng)圍棋選手在比賽結(jié)束后開始分析AlphaGo的策略時(shí),他們發(fā)現(xiàn)了很多以前沒見過的關(guān)于圍棋的新理論。而數(shù)學(xué)并不是一個(gè)游戲。AlphaProof或類似的系統(tǒng)提供給你的,可以說是一個(gè)非常強(qiáng)大的工具,它可以幫助數(shù)學(xué)家和科學(xué)家們做一件大事:試圖理解這個(gè)世界。
你怎么看待這些不同的意見?歡迎在評(píng)論區(qū)告訴我們你的想法。