去年三天摘銀,今年4.5小時(shí)奪金,DeepMind的數(shù)學(xué)成績(jī)可以說(shuō)是突飛猛進(jìn)。
除了DeepMindCEO哈薩比斯、谷歌CEO劈柴哥給團(tuán)隊(duì)發(fā)來(lái)賀電,馬斯克也發(fā)推表示了祝賀。
DeepMind這波可謂是被各界夾道祝賀,做得體面又周到。
但DeepMind被夸得越好,OpenAI就越發(fā)相形見(jiàn)絀,同樣是AI參賽IMO,秘密搞事情也就算了,還為了營(yíng)銷跟人類青少年搶風(fēng)頭。
奧特曼治下的OpenAI,最近除了丟人就丟人了。
DeepMind官宣AI拿下IMO金牌
DeepMind公告顯示,Gemini新模型做對(duì)了今年IMO六道題中的五道,獲得了35分。
并且這一成績(jī),也獲得了IMO主席GregorDolinar的親自認(rèn)證:
我們可以確認(rèn),谷歌DeepMind已達(dá)到人們夢(mèng)寐以求的里程碑,獲得了35分(滿分42分)——堪稱金牌。
他們的解決方案在很多方面都令人驚嘆。IMO評(píng)分員認(rèn)為這些解決方案清晰、精準(zhǔn),而且大多數(shù)都易于理解。
我們可以確認(rèn),谷歌DeepMind已達(dá)到人們夢(mèng)寐以求的里程碑,獲得了35分(滿分42分)——堪稱金牌。
他們的解決方案在很多方面都令人驚嘆。IMO評(píng)分員認(rèn)為這些解決方案清晰、精準(zhǔn),而且大多數(shù)都易于理解。
不僅評(píng)分遵循IMO未公開(kāi)的規(guī)則,所用時(shí)間標(biāo)準(zhǔn)也和人類選手完全一致——4.5小時(shí)之內(nèi)答完交卷。
而去年DeepMind的銀牌成績(jī),是用AlphaProof和AlphaGeometry一起做了三天才獲得的。
這次不僅用時(shí)更短,答題過(guò)程也是全程自然語(yǔ)言、端到端完成,不再像去年那樣專門修改題目格式。
DeepMind高級(jí)科學(xué)家兼IMO團(tuán)隊(duì)負(fù)責(zé)人ThangLuong表示,這與去年相比是一個(gè)范式轉(zhuǎn)變。
此外,DeepMind研究員、布朗大學(xué)教授JunehyukJung介紹,在今年的第三題中,很多人類選手使用了研究生水平的方案(IMO為高中競(jìng)賽),但Gemini僅使用了初等數(shù)論知識(shí)就給出了自洽的證明。
Jung還表示,Gemini沒(méi)答對(duì)的最后一題,是一開(kāi)始方向就錯(cuò)了,不過(guò)人類選手中做對(duì)這道題的也只有五個(gè)人。
順便說(shuō)一下,谷歌已經(jīng)將Gemini做對(duì)的五道題的答案完整公開(kāi)(鏈接見(jiàn)文末),有興趣的話可以驗(yàn)證一下~
這次DeepMind用來(lái)參賽的,是一款暫未公開(kāi)的全新模型,搭載了DeepThink推理模式。
DeepMind介紹,GeminiDeepThink是一種針對(duì)復(fù)雜問(wèn)題的增強(qiáng)型推理模式,融合了其最新的一些研究技術(shù),包括并行思維。
這種模式使模型能夠同時(shí)探索并組合多種可能的解決方案,最終得出最終答案,而不是追求單一的線性思維鏈。
為了充分利用DeepThink的推理能力,DeepMind額外訓(xùn)練了Gemini的這一版本,使其能夠利用更多多步推理、問(wèn)題求解和定理證明數(shù)據(jù)。
此外DeepMind還為Gemini提供了精選的高質(zhì)量數(shù)學(xué)題庫(kù),并在其指令中添加了一些關(guān)于如何解答IMO題目的通用提示和技巧。
當(dāng)然,DeepMind今天的官宣,也是獲得了各種稱贊。
DeepMind宣布成績(jī),被硅谷夾道歡迎
包括來(lái)自友商的稱贊在內(nèi),DeepMind獲得了整個(gè)硅谷的夾道歡迎。
除了開(kāi)頭馬斯克那句簡(jiǎn)單的Congrats之外,還有MetaAI科學(xué)家稱贊Gemini給出了清晰、精準(zhǔn)、非常適合自學(xué)的解決方案。
受歡迎的原因,不僅是表現(xiàn)優(yōu)秀,也包括谷歌對(duì)IMO規(guī)則的尊重。
Gemini參加挑戰(zhàn)是受到了IMO官方邀請(qǐng),所有規(guī)則標(biāo)準(zhǔn)都和人類一致。
并且,DeepMind也遵守了IMO官方的要求,沒(méi)有急于宣布結(jié)果。
仔細(xì)研究哈薩比斯的推文,只字未提OpenAI,但又處處在針對(duì)OpenAI。
哈薩比斯的三條回復(fù),主要強(qiáng)調(diào)了這么幾點(diǎn):官宣是沒(méi)有搶跑的,成績(jī)是IMO認(rèn)證的,模型也是未來(lái)可用的。
這三點(diǎn),剛好和搶先宣布奪金結(jié)果被錘的OpenAI形成了鮮明對(duì)比。
IMO評(píng)審團(tuán)和協(xié)調(diào)員們普遍認(rèn)為,AI開(kāi)發(fā)商在IMO期間(尤其是閉幕式之前)宣布成績(jī)是“粗魯且不恰當(dāng)?shù)摹薄?/p>
除了公告發(fā)布時(shí)間的問(wèn)題,OpenAI到底得沒(méi)得金牌也有爭(zhēng)議。
領(lǐng)導(dǎo)DeepMind超級(jí)推理團(tuán)隊(duì)的ThangLuong補(bǔ)充,IMO內(nèi)部其實(shí)有一份官方評(píng)分指南,外部無(wú)法獲取。沒(méi)有基于該指南的評(píng)分就沒(méi)有資格獲得獎(jiǎng)牌。
這屆IMO共6道題,每題7分。金牌線35分,OpenAI自報(bào)的成績(jī)也剛剛過(guò)線,即使是解答過(guò)程中微小的扣分都可能讓OpenAI從金牌跌到銀牌。
有網(wǎng)友評(píng)價(jià):OpenAI一如既往的為了炒作什么都干得出來(lái)。沒(méi)有官方分?jǐn)?shù),沒(méi)有耐心,也沒(méi)有羞恥心。
此外,OpenAI參賽用的模型也是未公開(kāi)版本,并且可能以后也不會(huì)公開(kāi)。
總之是處處和谷歌對(duì)比鮮明。
OpenAI研究員回應(yīng)質(zhì)疑
針對(duì)以上這些質(zhì)疑,OpenAI研究員Noam在給谷歌送出祝福后,也順帶進(jìn)行了回應(yīng):
首先,Noam解釋OpenAI沒(méi)和IMO官方合作不是沒(méi)收到邀請(qǐng),而是OpenAI自己拒絕了。
其次是關(guān)于作答過(guò)程和評(píng)分的權(quán)威性,Noam表示沒(méi)有使用RAG或者任何工具,而打分是由3位IMO獲獎(jiǎng)?wù)呓o出的。
同時(shí)Noam還公開(kāi)了OpenAI模型的回答,表示任何人都可以檢查。
最后是關(guān)于宣發(fā)時(shí)間,Noam表示公布成績(jī)之前和IMO董事會(huì)成員進(jìn)行過(guò)溝通,后者要求等到頒獎(jiǎng)儀式之后再發(fā)布,OpenAI表示接受。
而OpenAI官宣的時(shí)間是在太平洋時(shí)間凌晨1點(diǎn),彼時(shí)頒獎(jiǎng)已經(jīng)結(jié)束,OpenAI沒(méi)有被要求需要等到更晚的時(shí)間再發(fā)布。
雖然Noam的解釋獲得了部分網(wǎng)友的認(rèn)可,但說(shuō)一千道一萬(wàn),網(wǎng)友還是表示傾向于站在谷歌這一邊。
總之最近的OpenAI,除了丟人還是丟人。
小扎磨刀霍霍,人丟了。
谷歌同場(chǎng)競(jìng)技,丟人了。
Gemini回答:
https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf
OpenAI回答:
https://github.com/aw31/openai-imo-2025-proofs/
參考鏈接:
[1]https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/
[2]https://arstechnica.com/ai/2025/07/google-deepmind-earns-gold-in-international-math-olympiad-with-new-gemini-ai/
龍魂震天!斗羅大陸十大龍系魂獸戰(zhàn)力排行,黃金圣龍僅列第三
斗羅大陸中很有特點(diǎn)的6種強(qiáng)大魂獸:深海魔鯨王接近百萬(wàn)年修為
斗羅大陸:唯一一位成為真神級(jí)強(qiáng)者的魂獸,天夢(mèng)在它面前啥也不是