單位年會,領(lǐng)導(dǎo)讓你采購水果,并暗示你去他指定的一家去采購,但那家水果店水果經(jīng)常積壓不新鮮,你怎么辦?
AWorld項目團隊投稿量子位|公眾號QbitAI
2025年的IMO,好戲不斷。
7月19日,全世界頂尖大模型在2025年的IMO賽場上幾乎全軍覆沒。時隔1天,OpenAI、DeepMind等頂尖實驗室就在IMO2025賽場斬獲5/6題,震驚數(shù)學圈。
有意思的是,7月23日——兩位來自Harvard和UCLA的學生,用Gemini2.5Pro+自研多輪驗證框架,在arXiv扔下一篇論文,首次系統(tǒng)性拆解了「解題+驗證」的IMO解題方法論。48小時后,他們開源了完整代碼。
來自螞蟻的多智能體框架AWorld項目團隊也加入了這場卷王之爭:
7月24日啟動,僅僅6小時,采用AWorld智能體框架,復(fù)現(xiàn)并開源了DeepMind的5/6道解題結(jié)果,并直接給出了可一鍵運行的多智能體IMO系統(tǒng)。
果然,大家好奇的點還是跟傳統(tǒng)長思維鏈LangChain等框架有什么不一樣。作者給出的回復(fù),核心就是一個詞,自我進化。即,多智能體能夠超越單個智能體,能夠用于復(fù)雜問題協(xié)同,以及強化學習的獎勵模型等,最終實現(xiàn)AGI。
IMO2025,把復(fù)雜推理模型推向了一種新的高度(盡管還處在實驗室階段,但DeepMind透露會對外)。
不過,能解IMO級別數(shù)學題的超級單智能體實屬稀有。AWorld的實驗也首次用工程系統(tǒng)證明:多智能體協(xié)同的智力上限,有可能超越其依賴的單個模型。
單模的「不可能三角」:為什么必須上多智能體?
單個裸模型,包括Gemini2.5pro,幾乎無法一次推理答對IMO賽題:level1的第1,第4題在小概率下一次推理能答對(背景:IMO包括六道競賽題目,分為兩天進行,參賽者每天需完成3道題目,因此第一題難度相對較低),但是其余4題,一定需要多智能體協(xié)同才能完成,這揭露了一個殘酷現(xiàn)實:IMO級問題=單模的不可達之地。
AWorld的實測數(shù)據(jù)更扎心:
單模嘗試第3題:連續(xù)10次推理全部失敗。多智能體協(xié)同:通過「解題者+驗證者」雙角色對話,第3題在第5輪迭代就生成了完整的解答?!岸嘀悄荏w協(xié)同的智力上限,有可能超越其依賴的單個模型”的本質(zhì)是什么呢?
為此,AWorld團隊嘗試提出了幾種解釋視角:
構(gòu)建最優(yōu)輸入:從“好問題”到“完美上下文”
多智能體協(xié)同的核心優(yōu)勢在于它能動態(tài)地構(gòu)造出一個遠超初始提問的、高質(zhì)量的輸入信息。
基本原理(y=f(x)):我們可以將大模型視為一個固定的函數(shù)f,其輸出y的質(zhì)量完全取決于輸入x的質(zhì)量。
初始輸入的局限:對于如IMO競賽題這類復(fù)雜任務(wù),最初的提問(x_0)信息稀疏,缺乏足夠的引導(dǎo)“腳手架”。這使得模型難以在其龐大的能力空間中,僅憑一次嘗試就找到通往正確答案的路徑。
協(xié)同的價值:多智能體系統(tǒng)并非提升模型f本身,而是設(shè)計了一個“智能流程”:通過生成和整合中間思想(如解題草稿、批判性反饋、改進建議),共同構(gòu)建出一個信息極其豐富的“超級上下文”。這最終解鎖了模型早已具備、但通過簡單提問難以觸達的深層能力。
實現(xiàn)“元認知”:為系統(tǒng)外掛一個“反思模塊”
元認知,即“關(guān)于思考的思考”,是高級智能的核心標志。它包括自我監(jiān)控、自我評估和自我修正的能力。單個LLM本身不具備真正的元認知,但可以通過角色定義(Role-Play)來執(zhí)行元認知功能。
它不解決問題,而是評估解決方案的合理性、尋找邏輯漏洞、提出改進建議,從而避免了單模型容易陷入的思維定式和錯誤。
通過交互降低“信息熵”(ReducingInformationEntropy)
一個復(fù)雜的IMO問題,其解空間的不確定性(信息熵)非常高。每一次有效的多智能體交互都在為系統(tǒng)提供新的約束,從而降低這種不確定性。
例如,審閱者指出“你的第一步假設(shè)A是無證據(jù)的”,這個反饋極大地減少了后續(xù)需要探索的可能性,使計算資源能更集中地探索更有希望的路徑,從而顯著提升了求解的效率和準確性。
綜上,多智能體協(xié)同的優(yōu)越性源于其智能化的流程,而非個體能力的提升。該流程通過協(xié)作分解與迭代修正,能有效解鎖基礎(chǔ)模型的深層潛力,最終涌現(xiàn)出超越個體能力之和的系統(tǒng)級智能。
AWorld的「六小時魔法」:把論文變成可運行系統(tǒng)
面對地獄級難度的IMO,相比模型頂流拿下成績秀肌肉,能夠復(fù)現(xiàn)的解題過程可能更加有利于技術(shù)的演進,所以我們更希望看到有一些開源的工作。AWorld的復(fù)現(xiàn)方式,提供了一些思路:
核心結(jié)構(gòu):采用了”做題家”和”驗證者”的雙智能體對話機制,兩者均依賴于相同的基礎(chǔ)模型(如Gemini2.5pro)來構(gòu)建。其中,做題家負責生成數(shù)學解答,驗證者扮演IMO考官角色進行嚴格驗證,兩者通過多輪對話迭代優(yōu)化解答質(zhì)量。核心要素:設(shè)計了完整的對話循環(huán)機制,包括自動檢測終止條件、最終答案、記錄完整對話歷史,以及基于驗證者反饋的解答重構(gòu)策略,有效挖掘了基礎(chǔ)模型的潛在能力。身份設(shè)定與上下文工程:做題家采用嚴格的數(shù)學證明格式要求,驗證者則具備詳細的錯誤分類體系和標準化的驗證流程,這種專業(yè)化的角色分工顯著提升了問題解決的質(zhì)量和準確性。
目前,AWorld在著名的GAIATest榜單(即通過增加工具支持、更高效的提示、接入搜索等手段獲得增強能力的新一代大語言模型的基準)上達到了77.08分,在所有署名的智能體中排名第三,在所有開源工作中排名第一。
為多智能體協(xié)同而生
作為一個為構(gòu)建生產(chǎn)級、可擴展多智能體系統(tǒng)而設(shè)計的下一代框架,AWorld核心優(yōu)勢是采用事件驅(qū)動的群體智能架構(gòu),徹底超越了傳統(tǒng)LangChain等框架的局限。
智能體之間通過事件總線進行異步通信與協(xié)作,而非簡單的順序調(diào)用。這使得復(fù)雜的實時交互成為可能。
強大的工具與模型生態(tài)
模型即插即用:通過統(tǒng)一接口,可在30秒內(nèi)輕松切換OpenAI、Gemini、Claude等任意大語言模型,方便對比測試與成本優(yōu)化。MCP協(xié)議支持:將MCP作為核心能力,允許智能體將其他模型或智能體作為工具調(diào)用,極大拓展了能力邊界。所有工具均在安全沙箱中執(zhí)行,保障企業(yè)級安全。
生產(chǎn)級的穩(wěn)健性與可觀測性
全鏈路可觀測性:提供覆蓋智能體決策、工具調(diào)用全過程的追蹤、指標與日志,讓復(fù)雜的系統(tǒng)行為清晰透明,易于調(diào)試。精密的上下文與內(nèi)存管理:支持長短期記憶和復(fù)雜編排,確保智能體在執(zhí)行長周期任務(wù)時能保持狀態(tài)、不“失憶”。
支持模型持續(xù)進化的學習閉環(huán)
開放訓練接口:AWorld不僅是執(zhí)行框架,更是進化平臺。它提供開放接口,可與主流訓練框架結(jié)合,利用智能體在真實任務(wù)中產(chǎn)生的交互數(shù)據(jù)對底層模型進行訓練。實現(xiàn)智能體自我進化:通過“數(shù)據(jù)-訓練-部署”的閉環(huán),讓智能體在特定領(lǐng)域變得越來越“聰明”,構(gòu)建真正的專家智能體系統(tǒng)。
如何體驗「IMO級多智能體」?
3步運行(詳見README.md):
一鍵準備環(huán)境
進入項目目錄AWorld/examples/imo,然后直接運行腳本./setup_env.sh。自動創(chuàng)建獨立的Conda環(huán)境并安裝所有必需的依賴。
配置API密鑰
復(fù)制模板文件cp.env_template.env,然后編輯新生成的.env文件,填入你自己的大模型API密鑰(LLM_API_KEY)、模型名稱(LLM_MODEL_NAME)和接口地址(LLM_BASE_URL)。
激活環(huán)境并運行
首先激活環(huán)境,然后執(zhí)行主程序來解決指定的數(shù)學問題,例如運行pythonrun.py—qimo4來解決IMO2025第4題。
寫在最后:IMO只是開始
AWorld的復(fù)現(xiàn)實驗,拋出了一個激進結(jié)論:當前多智能體系統(tǒng)的數(shù)學能力,已超越99%人類選手(雖然測試集有限)。
當單模在IMO折戟時,多智能體系統(tǒng)已經(jīng)證明:AI的智能上限,可能不只在于模型有多大,更在于我們?nèi)绾谓M織它們工作。
多智能體協(xié)作,可能是一條通往更高群體智能的有效路徑。更震撼的是未來潛力:這套系統(tǒng)正在作為rewardmodel訓練下一代模型——用多智能體生成的「高階推理軌跡」作為訓練數(shù)據(jù),相當于讓模型從IMO金牌選手的草稿紙里學習。
下一站,AWorld團隊透露正在測試「多智能體+形式化驗證」組合,目標直指Lean4形式化證明。
IMO2026,可能將是人類最后一次有機會戰(zhàn)勝AI的數(shù)學競賽。
Gemini2.5Pro+:論文地址:https://arxiv.org/pdf/2507.15855
AWorld:GitHub:https://github.com/inclusionAI/AWorld
十本閱讀起來超爽的高品質(zhì)小說,保證本本高能,書友可以入坑!
超能紀元 超能紀元漫畫 超能紀元漫畫全集免費觀看-皮皮漫畫
良心大作《超能紀元》,闖一方天地,炮灰終成主宰