衡夢桐
文|硅谷101
最近,2025年國際數(shù)學(xué)奧林匹克(IMO)在澳大利亞落幕的兩天內(nèi),AI界因“IMO金牌認證”,開展了一場人才與技術(shù)話語權(quán)的雙重爭奪戰(zhàn)。
OpenAI搶先宣布其保密推理模型以35分達到金牌線,DeepMind兩天后也亮出IMO官方認證的同等成績單。這標志著AI首次在IMO中比肩頂尖學(xué)生,實現(xiàn)從2024年銀牌到2025年雙金牌的數(shù)學(xué)推理能力躍升。
伴隨技術(shù)進展而來的,是行業(yè)競爭“好戲”:當(dāng)DemisHassabis公開譴責(zé)OpenAI提前泄露成績時,媒體曝出DeepMind金牌團隊三名核心研究員已被Meta挖角。
AI數(shù)學(xué)能力的進步速度令人驚嘆。但IMO金牌究竟意味著什么?這是數(shù)學(xué)界的AlphaGo時刻嗎?AI將會成為數(shù)學(xué)研究中值得信賴的合作者,還是淪為市場邏輯下的技術(shù)產(chǎn)品,消解數(shù)學(xué)的真正意義?
本篇文章,我們邀請了IMO金牌得主,以親歷者的角度來聊聊兩大AI的解題邏輯和數(shù)學(xué)水平,并透視競賽背后的技術(shù)突破與數(shù)學(xué)的未來。
01前后獲得IMO金牌,DeepMind與OpenAI之戰(zhàn)
一覺醒來,我以為我穿越回高中了:朋友圈竟然有人提起IMO(國際數(shù)學(xué)奧林匹克競賽,InternationalMathematicalOlympiad,面向高中生的國際性數(shù)學(xué)競賽)。記得當(dāng)年還是萬里挑一的學(xué)霸才會去挑戰(zhàn)這個比賽,最近卻被AI拿下了:OpenAI和谷歌DeepMind前后宣布他們的模型達到了IMO金牌的標準。
這個“前后”雖然只差兩天,但卻充滿了戲劇性:今年的IMO是7月20日周日在澳大利亞閉幕,而OpenAI在周五,也就是7月18日晚上,就早早宣布了這個消息。
研究員AlexanderWei在X上說:OpenAI最新的實驗性推理大模型,實現(xiàn)了人工智能領(lǐng)域長期以來的一項重大挑戰(zhàn),在IMO競賽的6道題目中解出了5道,并且最終獲得了35分。IMO的滿分是42分,而35分恰好就達到了金牌的門檻。
兩天之后,DeepMind也下場宣布:GeminiDeepThink的進階版本模型也達到了這一成就。DeepMind的模型在整個過程中完全使用自然語言操作,最后同樣獲得了35分的成績,并且IMO官方組委會也證明了這一成績。
IMO主席GregorDolinar說:DeepMind的解題在許多方面都令人驚嘆,閱卷官認為這些解答清晰、嚴謹,而且大多數(shù)都很容易理解。
這個組委會親自背書的待遇,卻沒有給到OpenAI。DemisHassabis甚至特意下場,在X上表示:我們之所以沒有周五公布,是因為我們尊重IMO組委會最初的請求。所有AI實驗室都應(yīng)該在官方成績經(jīng)過獨立專家驗證,并且參賽學(xué)生已經(jīng)獲得應(yīng)有的表彰之后,才公開各自的結(jié)果。
他還說:我們的模型是第一個獲得官方“金牌水平”評級的AI系統(tǒng)——這簡直就差點OpenAI的名了。OpenAI之前的歡呼好像就沒那么名正言順了。
但更戲劇性的是,隔天媒體就爆出,DeepMind這一金牌模型背后的研究團隊中,有三名研究員已經(jīng)被Meta挖走了。在此之前的六個月內(nèi),DeepMind已經(jīng)有20名員工被挖去了微軟。
看來這場頂尖實驗室之間的斗爭,還在愈演愈烈。在吃瓜的同時,我們還是回到IMO競賽這個話題上:AI達到金牌水平,到底意味著什么?
首先要知道的是,這還遠遠說不上是數(shù)學(xué)領(lǐng)域的AlphaGo時刻。當(dāng)年AlphaGo擊敗了世界圍棋冠軍李世石,震驚全球,最核心的原因是圍棋被認為是人類智慧最難被機器超越的領(lǐng)域之一。
2022年DeepMind的AlphaFold準確預(yù)測蛋白質(zhì)結(jié)構(gòu),也被稱為是生物學(xué)的AlphaGo時刻,我們硅谷101在去年的文章《AI“入侵”生物醫(yī)療史》里詳細解讀了它的重要性。
但是這次,有72位高中生的成績也達到了金牌標準,其中5位獲得了42分滿分的成績,也就是完美地解答了6道題,但兩個AI模型都只做出來了5道。所以要說AI在數(shù)學(xué)能力上已經(jīng)勝過人類,還為時過早。
但即使沒有到AlphaGo的標準,IMO金牌的結(jié)果也足夠證明當(dāng)下大模型優(yōu)秀的數(shù)學(xué)能力了。紐約大學(xué)的計算機教授GaryMarcus和ErnestDavis就評價說:非常了不起。
02作為能力標準的IMO,證明了AI的數(shù)學(xué)推理能力
將解答IMO題目作為評估AI推理能力的標準,其實早有先例。
比如去年,DeepMind發(fā)布了兩個專為數(shù)學(xué)設(shè)計的模型:AlphaGeometry和AlphaProof。在IMO的六道題中,它們解出了四道,成為第一批達到銀牌標準的AI系統(tǒng)。
圖源:GoogleDeepMind
不過,這兩個模型當(dāng)時并不是用自然語言來解題,而是結(jié)合了“形式化證明”方法。簡單來說,形式化證明(FormalProof)就是把數(shù)學(xué)問題轉(zhuǎn)成機器能“看懂”的語言,再由AI用這種形式化語言一步步寫出邏輯嚴謹、可驗證的解答。
而這套語言的寫作工具,就叫做Lean(一種現(xiàn)代的定理證明助手和函數(shù)式編程語言,由微軟研究院開發(fā)),類似編程語言。
為了讓AI解題,研究者得先把自然語言題目“翻譯”成Lean,讓AI去處理,再轉(zhuǎn)回人類可讀的答案。整個過程耗時長達三天——遠超IMO給高中生兩天、共9小時的比賽限制。
但這一次,DeepMind最新的GeminiDeepThink模型在完全自然語言輸入輸出的條件下,達到了IMO的金牌標準。也就是說,AI直接從自然語言讀題、用自然語言作答——沒有再依賴Lean或其他形式化工具。這背后的意義很重要。
一直以來,很多人都認為語言模型不具備真正的推理能力。比如問它:“strawberry這個詞里有幾個r?”,它可能就會開始“內(nèi)耗”,反復(fù)計算還出錯。因為自然語言里沒有明確的邏輯結(jié)構(gòu),推理過程也就不穩(wěn)定。這也是為什么過去像AlphaProof那樣的模型,需要把自然語言轉(zhuǎn)成Lean,繞開語言的不確定性。
但現(xiàn)在,DeepMind證明了:語言模型本身,也可以完成高難度數(shù)學(xué)推理。雖然DeepMind和OpenAI都沒有公開模型的具體訓(xùn)練過程,但和一年前相比,這確實是一次重大進展。
李元杉圣母大學(xué)邏輯學(xué)博士生:現(xiàn)在AI大家都知道是根據(jù)很多技術(shù)、從很多數(shù)據(jù)當(dāng)中學(xué)習(xí)出來的一些參數(shù),這樣的一個結(jié)果,就不是說,我們預(yù)先給定了很多邏輯規(guī)則,然后它去執(zhí)行。同理,在數(shù)學(xué)上,最早期的用電腦來做數(shù)學(xué)的人會認為,把數(shù)學(xué)全部都形式化,然后運用這些規(guī)則,是解決數(shù)學(xué)問題的方法。但是現(xiàn)在,我們更多地看到這些公司會想辦法把兩者結(jié)合起來,甚至是直接使用語言模型去輸出自然語言的數(shù)學(xué),而完全不借助于形式化系統(tǒng)。
此前以GaryMarcus為代表的AI學(xué)者一直認為,語言模型無法獨立完成真正的數(shù)學(xué)推理。在他的設(shè)想中,AI模型必須依托像Lean這樣的形式化語言,輸出可以機器驗證的邏輯結(jié)構(gòu),最后再人工轉(zhuǎn)換成自然語言。也就是說,只有像AlphaProof這樣的“混合模型”才有可能達到數(shù)學(xué)研究的標準。
因此,GeminiDeepThink的成功,無疑在一定程度上挑戰(zhàn)了GaryMarcus的觀點。
李元杉圣母大學(xué)邏輯學(xué)博士生:你可以看到DeepMind發(fā)布了自己的模型生成出來的解答,這個解答就完全是自然語言了,就沒有一些代碼之類的。但是相比于去年使用的那一套系統(tǒng)就是,它可能最終輸出也是自然語言的,但是它需要先把這些東西翻譯成一個邏輯語言,然后進行一些形式化的證明之后,再輸出回來??赡苓^往數(shù)學(xué)家會把用電腦輔助數(shù)學(xué)跟形式化方法等同起來,但是經(jīng)過了這些語言模型的發(fā)展,以及它們證明了自己能夠顯示出一定的數(shù)學(xué)能力之后,他們可能會改變這個想法。03前IMO金牌得主點評,OpenAI與DeepMind解題差異
為了讓大家直觀地對比AI和人類選手的解答,我們邀請了前IMO中國國家隊成員胡蘇麟,為我們分享他對AI回答的感受。
他告訴我們,AI在作答的五道題中解答思路清晰、邏輯鏈條完整,獲得滿分是實至名歸的。
但在具體題目里對比兩個AI的回答,還是能發(fā)現(xiàn)一些有意思的情況。就比如第二題,一道平面幾何題。
胡蘇麟2019年IMO金牌得主:平面幾何題對于AI來說,算是最容易做的題型之一了。在這里,兩個AI也給出了不一樣的做法。DeepMind的做法是一個更加幾何的,更加自然的做法,我覺得也是更接近于正常人類選手能想到的做法。相比起來,OpenAI的方法就非常暴力,因為它直接使用了解析幾何的手段。用解析幾何的辦法,直接把這道幾何題轉(zhuǎn)化成了一道代數(shù)題,并且在它的解答過程中出現(xiàn)了巨量的計算。不過通常來說,人類選手通常不會在考場上做那么大量的計算。所以這個方法可能對AI來說,實行起來比人類選手要容易。
他還提到,兩個AI作答時的語言風(fēng)格也不同于人類選手。
胡蘇麟2019年IMO金牌得主:兩個AI的一個共同點就是:解答過程中會不斷引入新符號,來定義一些概念或者公式。這個選項在我上大學(xué)的高等數(shù)學(xué)的學(xué)習(xí)中比較經(jīng)常出現(xiàn),但在我以前的競賽生涯中不太經(jīng)常出現(xiàn)。原因是高中的競賽題沒有那么復(fù)雜,如果在解答過程中不斷引入新的符號,反而會增加我們理解解答過程以及解答思路的難度。兩個AI的語言風(fēng)格也有非常明顯的區(qū)別。比如說OpenAI在它的解答過程中會經(jīng)常出現(xiàn)一些人性化的描述詞,比如“XXXsofargood”或者“XXX我們完成了這一步”或者“nice”之類的詞匯。在一些方面也會適當(dāng)省略一些細節(jié),比如它會說“很容易驗證”或者“根據(jù)某某公式可以很容易檢查下面這些東西是對的。”所以總的來說,它給我的感覺像是一個在課堂上給學(xué)生講題的老師,所以它會經(jīng)常使用一些口語化的語言來鼓勵學(xué)生,循循善誘,比如它會說“我們已經(jīng)完成了關(guān)鍵的一步,非常棒”,又比如“我們已經(jīng)完成了這個結(jié)論,真是一個漂亮的結(jié)論”之類的話,來強調(diào)關(guān)鍵的步驟。
而相比之下,DeepMind所用的語言則更加書面化,像是在閱讀一篇數(shù)學(xué)論文。
04AI用于數(shù)學(xué)研究的前景,學(xué)術(shù)界褒貶不一
雖然和之前相比,大模型在IMO競賽中的表現(xiàn)已經(jīng)達到了質(zhì)的飛躍。但我們的采訪嘉賓告訴我們,IMO終究只是數(shù)學(xué)能力的一個側(cè)面:它是在一個限時、封閉的環(huán)境中,需要參賽者進行巧妙的思考,從而找到固定答案的一個競賽。
這不是我們在生活中買菜逛街要用的數(shù)學(xué),也不是數(shù)學(xué)家要窮盡一生思考的目標。
李元衫圣母大學(xué)邏輯學(xué)博士生:真正的數(shù)學(xué)研究,有時候目標可能更加開放,比如說,有些人可能會覺得自己做研究的目的是描述出一種現(xiàn)象,或者是發(fā)現(xiàn)一些具有規(guī)律性的結(jié)構(gòu)。但是在你真正做出這些發(fā)現(xiàn)之前,你能發(fā)現(xiàn)出什么是不知道的。所以說,相比于解決真正的開放性數(shù)學(xué)問題,可能解決競賽問題對于這些模型來說,現(xiàn)在是更可及了。
在AI不斷發(fā)展的過程中,數(shù)學(xué)學(xué)界也分裂成了兩派:有人認為,AI在數(shù)學(xué)和推理能力上的進展,已經(jīng)能夠在很大程度上幫助數(shù)學(xué)家。
比如澳籍華人數(shù)學(xué)家陶哲軒(TerenceTao,菲爾茲獎得主,被譽為“數(shù)學(xué)界的莫扎特”)就說:2023年,AI已經(jīng)能夠為職業(yè)數(shù)學(xué)家生成有啟發(fā)性的提示和有前景的思路。當(dāng)它與形式化證明及驗證、搜索引擎、符號數(shù)學(xué)工具等結(jié)合使用時,2026年的AI將會成為數(shù)學(xué)研究中值得信賴的合作者。
但與此同時,也有數(shù)學(xué)家對AI不那么信任。哥倫比亞大學(xué)的數(shù)學(xué)家MichaelHarris就在自己的Substack博客中提出了對AI數(shù)學(xué)的批判。
他提出,數(shù)學(xué)的真正意義在于自由探索和內(nèi)在洞見,而不是將其淪為市場邏輯下的技術(shù)產(chǎn)品。而像Lean這樣的計算機語言,卻將數(shù)學(xué)簡化成機器能看得懂的邏輯,讓他鐘愛的數(shù)學(xué)失去了自由創(chuàng)造和思辨力。
同時,他十分關(guān)注數(shù)學(xué)研究資本化的趨勢,擔(dān)心類似Google、NSA(美國國家安全局,NationalSecurityAgency)這樣的資助者傾向于以應(yīng)用價值衡量數(shù)學(xué),而忽視其內(nèi)在價值。
他批評當(dāng)前關(guān)于AI輔助數(shù)學(xué)的討論過分關(guān)注“它管用嗎”“會帶來效益嗎”,卻忽略了“對誰有益?”“為什么需要它?”這類值得探討的根本問題。
我們知道,李世石在被AlphaGo擊敗后選擇提前退役。頂尖的數(shù)學(xué)家們會因為AI在數(shù)學(xué)上的成就,懷疑自己研究的意義嗎?DeepMind的PushmeetKohli在去年AlphaProof達到IMO銀牌標準后就說,他認為這會促進數(shù)學(xué)學(xué)術(shù)研究。
PushmeetKohliDeepMind科學(xué)家:即使在圍棋的例子中,我們看到的是,當(dāng)圍棋選手在比賽結(jié)束后開始分析AlphaGo的策略時,他們發(fā)現(xiàn)了很多以前沒見過的關(guān)于圍棋的新理論。而數(shù)學(xué)并不是一個游戲。AlphaProof或類似的系統(tǒng)提供給你的,可以說是一個非常強大的工具,它可以幫助數(shù)學(xué)家和科學(xué)家們做一件大事:試圖理解這個世界。
你怎么看待這些不同的意見?歡迎在評論區(qū)告訴我們你的想法。
反復(fù)閱讀的精選讀物《明朝那些事兒增補版·全集》,揭秘實情讀來正...
本卷對大明做了一個總結(jié),引入深思。讀完《明朝那些事》,對明朝的歷史更加了解,讓我們感受了大明歷史的魅力-——。我們?yōu)榇竺魈熳邮貒T,君王死社稷的硬氣感到由衷欽佩——。不納貢,不和親,是大明的骨氣-|。明朝的服飾個人也非常喜歡,展示了華夏文明的服飾之美——。敬佩張居正的改革魄力,格局遠大;戚繼光的抗倭戰(zhàn)爭令我們?nèi)A夏兒是什么。
反復(fù)閱讀的高質(zhì)量作品《明朝那些事兒. 第貳部,萬國來朝》,直擊...
第一本:《明朝那些事兒》作者:磨鐵文化簡介:當(dāng)年明月的這本《明朝那些事兒》,他自己說應(yīng)該叫《明札記》,從形式上說是有道理的,但是卻不能體現(xiàn)這本書的長處和好處來,所以還是應(yīng)該叫《明朝那些事兒》。因為他的這一大系列,說的是自大明武太祖皇帝朱元璋起,到明朝滅亡近三百年的事_|。第一卷則從朱元璋好了吧!
再次閱讀《明朝那些事兒》,我領(lǐng)悟了7種強者思維
第一本:《明朝那些事兒》作者:磨鐵文化簡介:當(dāng)年明月的這本《明朝那些事兒》,他自己說應(yīng)該叫《明札記》,從形式上說是有道理的,但是卻不能體現(xiàn)這本書的長處和好處來,所以還是應(yīng)該叫《明朝那些事兒》。因為他的這一大系列,說的是自大明武太祖皇帝朱元璋起,到明朝滅亡近三百年的事_|。第一卷則從朱元璋后面會介紹——|。
來源:紅網(wǎng)
作者:俎玉樹
編輯:郗丹彤
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。