機(jī)器之心報(bào)道
機(jī)器之心編輯部
剛剛,谷歌DeepMind宣布,其新一代Gemini進(jìn)階版模型在IMO競(jìng)賽中正式達(dá)到金牌得主水平,成功解決了六道超高難度試題中的五道,拿下35分(滿分42分),成為首個(gè)獲得奧賽組委會(huì)官方認(rèn)定為金牌的AI系統(tǒng)。
更重要的是,該系統(tǒng)首次證明人工智能無(wú)需依賴(lài)專(zhuān)業(yè)編程語(yǔ)言,僅通過(guò)自然語(yǔ)言理解即可攻克復(fù)雜數(shù)學(xué)難題。
谷歌DeepMind首席執(zhí)行官哈薩比斯在社交媒體平臺(tái)X上強(qiáng)調(diào):這是官方結(jié)果!
谷歌這項(xiàng)成績(jī)遠(yuǎn)超其在2024年的表現(xiàn)。當(dāng)時(shí),AlphaProof和AlphaGeometry系統(tǒng)組合解決了六個(gè)問(wèn)題中的四個(gè),榮獲銀牌。
今年的突破來(lái)自GeminiDeepThink,這是一個(gè)增強(qiáng)型推理系統(tǒng),采用了研究人員所謂的并行思維。與遵循單一推理鏈的傳統(tǒng)人工智能模型不同,DeepThink會(huì)同時(shí)探索多種可能的解決方案,最終得出答案。
哈薩比斯在后續(xù)帖子中解釋道:谷歌的模型以自然語(yǔ)言進(jìn)行端到端運(yùn)行,直接從官方問(wèn)題描述中生成嚴(yán)格的數(shù)學(xué)證明。并強(qiáng)調(diào),該系統(tǒng)在比賽標(biāo)準(zhǔn)的4.5小時(shí)時(shí)限內(nèi)完成了任務(wù)。
谷歌這次官宣,讓OpenAI處于尷尬的處境,畢竟OpenAI因繞過(guò)官方競(jìng)賽規(guī)則提前官宣,遭到很多人吐槽??蓞⒖肌禣penAI拿IMO金牌是火了,但惹怒大批人:搶發(fā)炒作,搶學(xué)生風(fēng)頭》。
谷歌DeepMind這種謹(jǐn)慎的發(fā)布方式贏得了AI界的廣泛贊譽(yù),尤其與競(jìng)爭(zhēng)對(duì)手OpenAI對(duì)類(lèi)似成績(jī)的處理方式形成了鮮明對(duì)比。
「我們沒(méi)有在周五宣布這一消息,是因?yàn)槲覀冏鹬豂MO理事會(huì)最初的要求,即所有人工智能實(shí)驗(yàn)室只有在官方結(jié)果經(jīng)過(guò)獨(dú)立專(zhuān)家驗(yàn)證,并且學(xué)生獲得應(yīng)有的贊譽(yù)后,才能分享其成果?!构_比斯寫(xiě)道。
對(duì)比之下,大家都在譴責(zé)OpenAI做事不地道、毫無(wú)風(fēng)度、無(wú)禮。反觀谷歌DeepMind,行事正直,符合人性。
這種批評(píng)源于OpenAI決定在不參與IMO官方評(píng)估流程的情況下公布自己的成績(jī)。OpenAI讓一個(gè)由前IMO參賽選手組成的小組對(duì)其AI的表現(xiàn)進(jìn)行評(píng)分,社區(qū)中的一些人認(rèn)為這種做法缺乏可信度。
OpenAI又來(lái)回應(yīng)了
OpenAI研究科學(xué)家NoamBrown向谷歌發(fā)來(lái)祝賀,說(shuō)是祝賀,更多的是為了回應(yīng)質(zhì)疑。以下是回應(yīng)內(nèi)容。
谷歌采用的方法與我們略有不同,這表明還有很多研究方向值得探討。
兩個(gè)月前,IMO組委會(huì)曾通過(guò)郵件邀請(qǐng)我們參加基于Lean語(yǔ)言的正式比賽。由于我們一直致力于不受Lean限制的自然語(yǔ)言通用推理研究,因此婉拒了該邀請(qǐng)。組委會(huì)從未就自然語(yǔ)言解題形式與我們進(jìn)行過(guò)接洽。
在過(guò)去的幾個(gè)月里,我們?cè)谕ㄓ猛评矸矫嫒〉昧撕艽筮M(jìn)展。這包括收集、整理和訓(xùn)練高質(zhì)量的數(shù)學(xué)數(shù)據(jù),這些數(shù)據(jù)也將用于未來(lái)的模型。在IMO評(píng)估中,我們沒(méi)有使用RAG或任何其他工具。
我們提交的每份證明都由三位外部IMO獎(jiǎng)牌獲得者評(píng)分,并獲得了一致的正確性認(rèn)可。我們還將證明公開(kāi)發(fā)布,以便任何人都可以驗(yàn)證其正確性。
證明地址:https://github.com/aw31/openai-imo-2025-proofs/
在分享我們的結(jié)果之前,我們與IMO的一位董事會(huì)成員進(jìn)行了交談,他要求我們等到頒獎(jiǎng)典禮結(jié)束后再公開(kāi)結(jié)果,我們的發(fā)布滿足要求。
我們?cè)陬C獎(jiǎng)典禮結(jié)束后,于太平洋時(shí)間~凌晨1點(diǎn)(澳大利亞?wèn)|部標(biāo)準(zhǔn)時(shí)間下午6點(diǎn))宣布。從來(lái)沒(méi)有人要求我們晚于此宣布。
最重要的是,我們很高興與世界分享我們的進(jìn)展和成果。AI推理能力正在快速發(fā)展,這些IMO結(jié)果確實(shí)表明了這一點(diǎn)。
通過(guò)這件事,我們不難發(fā)現(xiàn),這場(chǎng)AI登上數(shù)學(xué)奧林匹克舞臺(tái)的較量,不只是一次技術(shù)競(jìng)賽,更是一場(chǎng)關(guān)于規(guī)范、節(jié)奏與合作精神的展示。DeepMind選擇了等待官方認(rèn)可,再謹(jǐn)慎發(fā)布成績(jī),贏得了金牌,也贏得了尊重。而OpenAI盡管也取得了不俗成果,卻因時(shí)機(jī)與方式的問(wèn)題,引發(fā)了爭(zhēng)議。這背后提醒我們,在通往AGI的路上,除了技術(shù)力,如何與人類(lèi)社會(huì)的規(guī)則與價(jià)值觀對(duì)齊,正變得愈發(fā)重要。
https://x.com/polynoamial/status/1947398536577822798
https://venturebeat.com/ai/google-deepmind-makes-ai-history-with-gold-medal-win-at-worlds-toughest-math-competition/
教科書(shū)上不曾提及的歷史真相,看完《中國(guó)通史》,簡(jiǎn)直顛覆三觀
比如,在評(píng)價(jià)曹操時(shí),教科書(shū)往往強(qiáng)調(diào)他的“挾天子以令諸侯”和政治野心,而呂思勉則既肯定了曹操在政治、軍事上的卓越才能,如他統(tǒng)一北方、推行屯田制等舉措對(duì)歷史發(fā)展的積極影響,也不避諱其性格中的多疑等特點(diǎn),為我們還原了一個(gè)立體、真實(shí)的歷史人物。這種多維度的視角,讓我們對(duì)歷史人物有了全新的認(rèn)識(shí)——。再如,對(duì)于秦朝的統(tǒng)一,教科書(shū)主要 民國(guó)歷史學(xué)家呂思勉評(píng)價(jià)曹操為“魏武則功成不居,誠(chéng)無(wú)愧孔子所謂至德。司馬懿、蕭道成之流,則徒為一身權(quán)位富貴之計(jì),不足道矣|——?!笨v觀歷史,220年的那個(gè)“庚子年”,曹操逝后。曹丕,劉備,孫權(quán)先后稱(chēng)帝,三國(guó)鼎立的局面正式開(kāi)啟_|。在那個(gè)天下已經(jīng)沒(méi)有曹操的時(shí)候,果如他在《述志令》中所講,無(wú)意當(dāng)中也為這句說(shuō)完了。三位歷史學(xué)家眼中的不同三國(guó)??新京報(bào)書(shū)評(píng)周刊