AWorld項(xiàng)目團(tuán)隊(duì)投稿量子位|公眾號QbitAI
2025年的IMO,好戲不斷。
7月19日,全世界頂尖大模型在2025年的IMO賽場上幾乎全軍覆沒。時(shí)隔1天,OpenAI、DeepMind等頂尖實(shí)驗(yàn)室就在IMO2025賽場斬獲5/6題,震驚數(shù)學(xué)圈。
有意思的是,7月23日——兩位來自Harvard和UCLA的學(xué)生,用Gemini2.5Pro+自研多輪驗(yàn)證框架,在arXiv扔下一篇論文,首次系統(tǒng)性拆解了「解題+驗(yàn)證」的IMO解題方法論。48小時(shí)后,他們開源了完整代碼。
來自螞蟻的多智能體框架AWorld項(xiàng)目團(tuán)隊(duì)也加入了這場卷王之爭:
7月24日啟動(dòng),僅僅6小時(shí),采用AWorld智能體框架,復(fù)現(xiàn)并開源了DeepMind的5/6道解題結(jié)果,并直接給出了可一鍵運(yùn)行的多智能體IMO系統(tǒng)。
果然,大家好奇的點(diǎn)還是跟傳統(tǒng)長思維鏈LangChain等框架有什么不一樣。作者給出的回復(fù),核心就是一個(gè)詞,自我進(jìn)化。即,多智能體能夠超越單個(gè)智能體,能夠用于復(fù)雜問題協(xié)同,以及強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)模型等,最終實(shí)現(xiàn)AGI。
IMO2025,把復(fù)雜推理模型推向了一種新的高度(盡管還處在實(shí)驗(yàn)室階段,但DeepMind透露會(huì)對外)。
不過,能解IMO級別數(shù)學(xué)題的超級單智能體實(shí)屬稀有。AWorld的實(shí)驗(yàn)也首次用工程系統(tǒng)證明:多智能體協(xié)同的智力上限,有可能超越其依賴的單個(gè)模型。
單模的「不可能三角」:為什么必須上多智能體?
單個(gè)裸模型,包括Gemini2.5pro,幾乎無法一次推理答對IMO賽題:level1的第1,第4題在小概率下一次推理能答對(背景:IMO包括六道競賽題目,分為兩天進(jìn)行,參賽者每天需完成3道題目,因此第一題難度相對較低),但是其余4題,一定需要多智能體協(xié)同才能完成,這揭露了一個(gè)殘酷現(xiàn)實(shí):IMO級問題=單模的不可達(dá)之地。
AWorld的實(shí)測數(shù)據(jù)更扎心:
單模嘗試第3題:連續(xù)10次推理全部失敗。多智能體協(xié)同:通過「解題者+驗(yàn)證者」雙角色對話,第3題在第5輪迭代就生成了完整的解答。“多智能體協(xié)同的智力上限,有可能超越其依賴的單個(gè)模型”的本質(zhì)是什么呢?
為此,AWorld團(tuán)隊(duì)嘗試提出了幾種解釋視角:
構(gòu)建最優(yōu)輸入:從“好問題”到“完美上下文”
多智能體協(xié)同的核心優(yōu)勢在于它能動(dòng)態(tài)地構(gòu)造出一個(gè)遠(yuǎn)超初始提問的、高質(zhì)量的輸入信息。
基本原理(y=f(x)):我們可以將大模型視為一個(gè)固定的函數(shù)f,其輸出y的質(zhì)量完全取決于輸入x的質(zhì)量。
初始輸入的局限:對于如IMO競賽題這類復(fù)雜任務(wù),最初的提問(x_0)信息稀疏,缺乏足夠的引導(dǎo)“腳手架”。這使得模型難以在其龐大的能力空間中,僅憑一次嘗試就找到通往正確答案的路徑。
協(xié)同的價(jià)值:多智能體系統(tǒng)并非提升模型f本身,而是設(shè)計(jì)了一個(gè)“智能流程”:通過生成和整合中間思想(如解題草稿、批判性反饋、改進(jìn)建議),共同構(gòu)建出一個(gè)信息極其豐富的“超級上下文”。這最終解鎖了模型早已具備、但通過簡單提問難以觸達(dá)的深層能力。
實(shí)現(xiàn)“元認(rèn)知”:為系統(tǒng)外掛一個(gè)“反思模塊”
元認(rèn)知,即“關(guān)于思考的思考”,是高級智能的核心標(biāo)志。它包括自我監(jiān)控、自我評估和自我修正的能力。單個(gè)LLM本身不具備真正的元認(rèn)知,但可以通過角色定義(Role-Play)來執(zhí)行元認(rèn)知功能。
它不解決問題,而是評估解決方案的合理性、尋找邏輯漏洞、提出改進(jìn)建議,從而避免了單模型容易陷入的思維定式和錯(cuò)誤。
通過交互降低“信息熵”(ReducingInformationEntropy)
一個(gè)復(fù)雜的IMO問題,其解空間的不確定性(信息熵)非常高。每一次有效的多智能體交互都在為系統(tǒng)提供新的約束,從而降低這種不確定性。
例如,審閱者指出“你的第一步假設(shè)A是無證據(jù)的”,這個(gè)反饋極大地減少了后續(xù)需要探索的可能性,使計(jì)算資源能更集中地探索更有希望的路徑,從而顯著提升了求解的效率和準(zhǔn)確性。
綜上,多智能體協(xié)同的優(yōu)越性源于其智能化的流程,而非個(gè)體能力的提升。該流程通過協(xié)作分解與迭代修正,能有效解鎖基礎(chǔ)模型的深層潛力,最終涌現(xiàn)出超越個(gè)體能力之和的系統(tǒng)級智能。
AWorld的「六小時(shí)魔法」:把論文變成可運(yùn)行系統(tǒng)
面對地獄級難度的IMO,相比模型頂流拿下成績秀肌肉,能夠復(fù)現(xiàn)的解題過程可能更加有利于技術(shù)的演進(jìn),所以我們更希望看到有一些開源的工作。AWorld的復(fù)現(xiàn)方式,提供了一些思路:
核心結(jié)構(gòu):采用了”做題家”和”驗(yàn)證者”的雙智能體對話機(jī)制,兩者均依賴于相同的基礎(chǔ)模型(如Gemini2.5pro)來構(gòu)建。其中,做題家負(fù)責(zé)生成數(shù)學(xué)解答,驗(yàn)證者扮演IMO考官角色進(jìn)行嚴(yán)格驗(yàn)證,兩者通過多輪對話迭代優(yōu)化解答質(zhì)量。核心要素:設(shè)計(jì)了完整的對話循環(huán)機(jī)制,包括自動(dòng)檢測終止條件、最終答案、記錄完整對話歷史,以及基于驗(yàn)證者反饋的解答重構(gòu)策略,有效挖掘了基礎(chǔ)模型的潛在能力。身份設(shè)定與上下文工程:做題家采用嚴(yán)格的數(shù)學(xué)證明格式要求,驗(yàn)證者則具備詳細(xì)的錯(cuò)誤分類體系和標(biāo)準(zhǔn)化的驗(yàn)證流程,這種專業(yè)化的角色分工顯著提升了問題解決的質(zhì)量和準(zhǔn)確性。
目前,AWorld在著名的GAIATest榜單(即通過增加工具支持、更高效的提示、接入搜索等手段獲得增強(qiáng)能力的新一代大語言模型的基準(zhǔn))上達(dá)到了77.08分,在所有署名的智能體中排名第三,在所有開源工作中排名第一。
為多智能體協(xié)同而生
作為一個(gè)為構(gòu)建生產(chǎn)級、可擴(kuò)展多智能體系統(tǒng)而設(shè)計(jì)的下一代框架,AWorld核心優(yōu)勢是采用事件驅(qū)動(dòng)的群體智能架構(gòu),徹底超越了傳統(tǒng)LangChain等框架的局限。
智能體之間通過事件總線進(jìn)行異步通信與協(xié)作,而非簡單的順序調(diào)用。這使得復(fù)雜的實(shí)時(shí)交互成為可能。
強(qiáng)大的工具與模型生態(tài)
模型即插即用:通過統(tǒng)一接口,可在30秒內(nèi)輕松切換OpenAI、Gemini、Claude等任意大語言模型,方便對比測試與成本優(yōu)化。MCP協(xié)議支持:將MCP作為核心能力,允許智能體將其他模型或智能體作為工具調(diào)用,極大拓展了能力邊界。所有工具均在安全沙箱中執(zhí)行,保障企業(yè)級安全。
生產(chǎn)級的穩(wěn)健性與可觀測性
全鏈路可觀測性:提供覆蓋智能體決策、工具調(diào)用全過程的追蹤、指標(biāo)與日志,讓復(fù)雜的系統(tǒng)行為清晰透明,易于調(diào)試。精密的上下文與內(nèi)存管理:支持長短期記憶和復(fù)雜編排,確保智能體在執(zhí)行長周期任務(wù)時(shí)能保持狀態(tài)、不“失憶”。
支持模型持續(xù)進(jìn)化的學(xué)習(xí)閉環(huán)
開放訓(xùn)練接口:AWorld不僅是執(zhí)行框架,更是進(jìn)化平臺。它提供開放接口,可與主流訓(xùn)練框架結(jié)合,利用智能體在真實(shí)任務(wù)中產(chǎn)生的交互數(shù)據(jù)對底層模型進(jìn)行訓(xùn)練。實(shí)現(xiàn)智能體自我進(jìn)化:通過“數(shù)據(jù)-訓(xùn)練-部署”的閉環(huán),讓智能體在特定領(lǐng)域變得越來越“聰明”,構(gòu)建真正的專家智能體系統(tǒng)。
如何體驗(yàn)「IMO級多智能體」?
3步運(yùn)行(詳見README.md):
一鍵準(zhǔn)備環(huán)境
進(jìn)入項(xiàng)目目錄AWorld/examples/imo,然后直接運(yùn)行腳本./setup_env.sh。自動(dòng)創(chuàng)建獨(dú)立的Conda環(huán)境并安裝所有必需的依賴。
配置API密鑰
復(fù)制模板文件cp.env_template.env,然后編輯新生成的.env文件,填入你自己的大模型API密鑰(LLM_API_KEY)、模型名稱(LLM_MODEL_NAME)和接口地址(LLM_BASE_URL)。
激活環(huán)境并運(yùn)行
首先激活環(huán)境,然后執(zhí)行主程序來解決指定的數(shù)學(xué)問題,例如運(yùn)行pythonrun.py—qimo4來解決IMO2025第4題。
寫在最后:IMO只是開始
AWorld的復(fù)現(xiàn)實(shí)驗(yàn),拋出了一個(gè)激進(jìn)結(jié)論:當(dāng)前多智能體系統(tǒng)的數(shù)學(xué)能力,已超越99%人類選手(雖然測試集有限)。
當(dāng)單模在IMO折戟時(shí),多智能體系統(tǒng)已經(jīng)證明:AI的智能上限,可能不只在于模型有多大,更在于我們?nèi)绾谓M織它們工作。
多智能體協(xié)作,可能是一條通往更高群體智能的有效路徑。更震撼的是未來潛力:這套系統(tǒng)正在作為rewardmodel訓(xùn)練下一代模型——用多智能體生成的「高階推理軌跡」作為訓(xùn)練數(shù)據(jù),相當(dāng)于讓模型從IMO金牌選手的草稿紙里學(xué)習(xí)。
下一站,AWorld團(tuán)隊(duì)透露正在測試「多智能體+形式化驗(yàn)證」組合,目標(biāo)直指Lean4形式化證明。
IMO2026,可能將是人類最后一次有機(jī)會(huì)戰(zhàn)勝AI的數(shù)學(xué)競賽。
Gemini2.5Pro+:論文地址:https://arxiv.org/pdf/2507.15855
AWorld:GitHub:https://github.com/inclusionAI/AWorld
早安勵(lì)志圖片句子:答應(yīng)自己的事都辦不到,何必抱怨世界和你作對
OPPO Reno13 系列體驗(yàn):果味十足顏值出眾,實(shí)況照片實(shí)力出圈
何必去北方!追雪大盤山,更有性價(jià)比!