召奇正
朱昆侖是伊利諾伊大學(xué)香檳分校(UIUC)計(jì)算機(jī)科學(xué)系的研究生,現(xiàn)隸屬于Ulab與BlenderLab,曾在斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)(CMU)與蒙特利爾學(xué)習(xí)算法研究所(Mila)進(jìn)行學(xué)術(shù)訪問。他的研究方向包括大語言模型(LLM)智能體、多智能體系統(tǒng)、AI科學(xué)家與工具學(xué)習(xí)等,在ICML、ICLR、ACL、TMLR等頂級(jí)會(huì)議與期刊發(fā)表論文10余篇,總引用超過1500次。他積極參與多個(gè)廣泛影響的開源項(xiàng)目,包括OpenManus(RL)、ChatDev(MACNET)、ToolBench等,累計(jì)在GitHub上獲得超過5萬+stars。此外,他曾受邀在AMD開發(fā)者大會(huì)、阿里巴巴云棲大會(huì)等重要學(xué)術(shù)與工業(yè)會(huì)議中作報(bào)告,分享其在AI智能體方面的開源成果。
我們正在見證一個(gè)全新的時(shí)代:AI的浪潮從強(qiáng)大的「?jìng)€(gè)體」奔涌向復(fù)雜的「團(tuán)隊(duì)」,它們像人類團(tuán)隊(duì)一樣協(xié)作開發(fā)軟件、進(jìn)行科學(xué)研究,甚至在虛擬世界中展開激烈的策略對(duì)抗。
然而,一個(gè)問題也隨之浮出水面:我們?nèi)绾闻袛噙@些AI團(tuán)隊(duì)是「三個(gè)臭皮匠,賽過諸葛亮」,還是「三個(gè)和尚沒水喝」?
現(xiàn)有的評(píng)測(cè)基準(zhǔn),如AgentBench、GAIA等,大多聚焦于單個(gè)智能體的推理和工具使用能力,卻無法衡量多智能體系統(tǒng)內(nèi)部至關(guān)重要的協(xié)作效率、溝通質(zhì)量和競(jìng)爭(zhēng)策略。這在AI能力評(píng)估領(lǐng)域,形成了一個(gè)巨大的「盲區(qū)」。
為了填補(bǔ)這一空白,來自伊利諾伊大學(xué)厄巴納-香檳分校的研究者們,近日推出了MultiAgentBench。該成果近日被自然語言處理頂級(jí)會(huì)議ACL2025主會(huì)正式接收。
論文標(biāo)題:MultiAgentBench:EvaluatingtheCollaborationandCompetitionofLLMagents
代碼鏈接:https://github.com/Ulab-UIUC/MARBLE
這不僅是一個(gè)評(píng)測(cè)集,更是首個(gè)能夠全面、系統(tǒng)化地評(píng)估LLM多智能體系統(tǒng)協(xié)作與競(jìng)爭(zhēng)能力的綜合性基準(zhǔn)。它不僅僅是一套「考題」,而更像一個(gè)「模擬真實(shí)社會(huì)動(dòng)態(tài)的實(shí)驗(yàn)室」,旨在揭示多智能體協(xié)作的奧秘,并回答一系列關(guān)鍵問題:
智能體的能力與協(xié)作,哪個(gè)更重要?
AI團(tuán)隊(duì)采用哪種組織架構(gòu)和協(xié)作策略效率最高?
當(dāng)AI被賦予共同或者沖突的目標(biāo)時(shí),它們會(huì)演化出怎樣的社會(huì)行為?
……
圖1:MultiAgentBench評(píng)估流程概覽
MARBLE的主要貢獻(xiàn)包括:
提出了MultiAgentBench這一綜合性基準(zhǔn),在六種多樣化交互場(chǎng)景中評(píng)估基于LLM的多智能體系統(tǒng)的協(xié)作與競(jìng)爭(zhēng)。
提出了創(chuàng)新的評(píng)估指標(biāo):不僅評(píng)估任務(wù)的完成質(zhì)量,還衡量智能體的協(xié)作、規(guī)劃與溝通的質(zhì)量。
揭示了多智能體協(xié)作中的一些「頓悟時(shí)刻」——智能體開始展現(xiàn)出涌現(xiàn)的社會(huì)行為,為實(shí)現(xiàn)類AGI級(jí)別的協(xié)作帶來了有希望的啟示。
研究結(jié)果揭示了幾個(gè)關(guān)鍵結(jié)論:在眾多模型中,gpt-4o-mini展現(xiàn)出最強(qiáng)的綜合任務(wù)能力;在協(xié)作模式上,「圖結(jié)構(gòu)」的去中心化協(xié)作模式效率最高;而在規(guī)劃策略上,相比于「小組討論」等規(guī)劃方法,「認(rèn)知自演化規(guī)劃」方法能有效提升任務(wù)達(dá)成率。更重要的是,實(shí)驗(yàn)觀察到了智能體在復(fù)雜博弈中自發(fā)產(chǎn)生的「社會(huì)智慧」。
圖2:MARBLE核心框架設(shè)計(jì)展示
框架設(shè)計(jì)
MultiAgentBench的核心在于其背后的協(xié)作引擎MARBLE(Multi-agentcoordinationBackbonewithLLMEngine)。它將評(píng)測(cè)重點(diǎn)從單個(gè)智能體能力拓展到智能體之間的關(guān)系動(dòng)態(tài)與組織結(jié)構(gòu),使研究者能夠系統(tǒng)性分析多智能體協(xié)作和對(duì)抗過程中的效率與行為模式。在多智能體系統(tǒng)中,如何高效組織和協(xié)作,可能與個(gè)體能力同樣重要。
圖2展示了MARBLE的整體架構(gòu),其中包含三個(gè)核心模塊:
協(xié)作引擎
協(xié)作引擎作為整個(gè)系統(tǒng)的大腦中樞,負(fù)責(zé)整合并調(diào)度所有模塊,明確區(qū)分「規(guī)劃者」(Planners)和「執(zhí)行者」(Actors)的角色。這種分工幫助實(shí)現(xiàn)從整體規(guī)劃到具體執(zhí)行的順暢銜接,使評(píng)測(cè)能夠更好地觀測(cè)協(xié)作效率與執(zhí)行效果。
智能體圖
智能體圖模塊不僅記錄智能體是誰,還通過(agent1,關(guān)系,agent2)的三元組形式,建立起智能體之間的關(guān)系網(wǎng)絡(luò),包括「協(xié)作」、「監(jiān)督」等。這種結(jié)構(gòu)化關(guān)系使得智能體之間的互動(dòng)具有可控性和方向性,更接近真實(shí)團(tuán)隊(duì)中的組織架構(gòu)。
認(rèn)知模塊
認(rèn)知模塊為每個(gè)智能體提供個(gè)性化信息、獨(dú)立的記憶,以及多樣化的推理方式,使其能夠根據(jù)上下文和交互過程靈活調(diào)整策略,而非簡(jiǎn)單執(zhí)行固定指令。這一設(shè)計(jì)使智能體在多智能體環(huán)境中展現(xiàn)出更具適應(yīng)性和靈活度的行為,為研究智能體間協(xié)作與互動(dòng)提供了支持。
交互策略與環(huán)境
圖3:(a)協(xié)作協(xié)議(如星型、樹型、圖結(jié)構(gòu)與鏈?zhǔn)剑?b)規(guī)劃策略。
交互策略
MARBLE框架內(nèi)置了四種協(xié)作協(xié)議,如圖3所示,包括中心化協(xié)議(星型、樹型)與去中心化協(xié)議(圖型、鏈型),來模擬現(xiàn)實(shí)世界中典型的團(tuán)隊(duì)協(xié)作模式。
評(píng)測(cè)場(chǎng)景
MultiAgentBench設(shè)計(jì)了六個(gè)覆蓋不同領(lǐng)域的評(píng)測(cè)場(chǎng)景,全面模擬了從團(tuán)隊(duì)合作到利益沖突的各種應(yīng)用環(huán)境:
共同目標(biāo):
科研(Research):AI科學(xué)家團(tuán)隊(duì),合作撰寫研究報(bào)告。
我的世界(Minecraft):AI游戲團(tuán)隊(duì),合作完成游戲目標(biāo)。
數(shù)據(jù)庫(kù)(Database):AI數(shù)據(jù)庫(kù)工程師團(tuán)隊(duì),合作完成數(shù)據(jù)庫(kù)開發(fā)項(xiàng)目。
編程(Coding):AI軟件工程師團(tuán)隊(duì),合作完成軟件工程開發(fā)項(xiàng)目。
沖突目標(biāo):
狼人殺(Werewolf):模擬狼人殺游戲。AI智能體需要進(jìn)行欺騙和偽裝來獲得游戲勝利。
談判(Bargaining):模擬真實(shí)的商業(yè)談判場(chǎng)景。AI智能體需要在資源有限的情況下,通過策略性的讓步、聯(lián)盟或施壓,為自己爭(zhēng)取最大的利益。
評(píng)價(jià)指標(biāo)
圖4:基準(zhǔn)創(chuàng)建過程及動(dòng)態(tài)里程碑檢測(cè)機(jī)制。
任務(wù)完成度
基于里程碑的KPI(Milestone-basedKPI):這是MultiAgentBench評(píng)測(cè)體系的一大亮點(diǎn)。它不再將任務(wù)視為一個(gè)整體,而是將其分解為一系列關(guān)鍵的「里程碑」(例如,在科研任務(wù)中,「完成5個(gè)關(guān)鍵問題的定義」或「對(duì)上一版提案進(jìn)行實(shí)質(zhì)性改進(jìn)」)。系統(tǒng)通過一個(gè)LLM裁判,動(dòng)態(tài)地檢測(cè)團(tuán)隊(duì)是否達(dá)成了這些里程碑,并自動(dòng)記錄做出核心貢獻(xiàn)的智能體。
任務(wù)得分(TaskScore,以下簡(jiǎn)稱TS):這是對(duì)多智能體系統(tǒng)最終產(chǎn)出質(zhì)量的綜合評(píng)分,會(huì)根據(jù)任務(wù)類型(如科研、編程、游戲勝負(fù))采用不同的評(píng)價(jià)標(biāo)準(zhǔn)。
協(xié)作質(zhì)量
這是對(duì)團(tuán)隊(duì)「軟實(shí)力」的量化評(píng)估,由兩個(gè)核心分?jǐn)?shù)構(gòu)成:
溝通分?jǐn)?shù)(Communicationscore):評(píng)估團(tuán)隊(duì)內(nèi)部溝通的效率、清晰度以及信息的有效傳遞。
規(guī)劃分?jǐn)?shù)(Planningscore):評(píng)估任務(wù)分配的合理性、角色維護(hù)的一致性以及戰(zhàn)略的連貫性。
協(xié)作總分(CoordinationScore,以下簡(jiǎn)稱CS):上述兩者的平均值,直觀地反映了團(tuán)隊(duì)的整體協(xié)作水平。
實(shí)驗(yàn)結(jié)論
高效的協(xié)作≠優(yōu)異的成果,個(gè)體能力是基石
表1:Minecraft、Database、Coding、Bargaining與Werewolf五個(gè)場(chǎng)景中的平均TS與協(xié)作CS。在三個(gè)任務(wù)場(chǎng)景中,均為同一模型同時(shí)取得最高TS與CS,表明CS是衡量TS的良好指標(biāo)。
溝通順暢、配合默契的AI團(tuán)隊(duì)是否就能更加高質(zhì)量地完成任務(wù)?直覺告訴我們「是的」,但實(shí)驗(yàn)數(shù)據(jù)(如表1所示)卻指出——在多智能體系統(tǒng)中,協(xié)作與個(gè)體能力并非總能齊頭并進(jìn)。
例如,在Minecraft任務(wù)中,Meta-Llama-3.1-70B模型展現(xiàn)出了高達(dá)75.00的CS,但其最終的TS僅為0.21。協(xié)作分高,意味著智能體之間在頻繁、清晰地溝通,并嚴(yán)格遵循著既定規(guī)劃。但如果單個(gè)智能體的某項(xiàng)執(zhí)行能力存在根本性缺陷,那么再完美的溝通和規(guī)劃,也是空中樓閣。
這表明,在當(dāng)前階段,多智能體系統(tǒng)的性能瓶頸首先在于單個(gè)智能體的核心能力。協(xié)作是能力的「放大器」,而非能力的「替代品」。
AI團(tuán)隊(duì)的「組織內(nèi)耗」:警惕冗余層級(jí)與無效討論
圖5:不同協(xié)作協(xié)議在多種評(píng)估指標(biāo)下的表現(xiàn)。
圖6:不同規(guī)劃提示策略下研究任務(wù)的平均指標(biāo)。認(rèn)知自演化規(guī)劃在CS上表現(xiàn)最佳。
如圖5所示,在四種協(xié)作協(xié)議中,圖結(jié)構(gòu)這種允許所有智能體自由溝通、并行協(xié)作的模式,在任務(wù)得分、規(guī)劃質(zhì)量和效率上全面占優(yōu),緊隨其后的是星型,而表現(xiàn)最差的是樹型結(jié)構(gòu),其層級(jí)過多的設(shè)計(jì),導(dǎo)致溝通成本和信息損耗急劇增加,任務(wù)得分和協(xié)作分均為最低。這表明,對(duì)于需要復(fù)雜協(xié)作的任務(wù),扁平、去中心化的組織架構(gòu)比層級(jí)結(jié)構(gòu)更有效。
如圖6所示,一個(gè)反直覺的結(jié)論出現(xiàn)了:讓多個(gè)AI規(guī)劃師進(jìn)行「小組討論」,效果竟是所有策略中最差的。這或許說明,當(dāng)前階段的AI的小組討論不僅沒能集思廣益,反而可能陷入「集體降智」。與之形成對(duì)比的是,進(jìn)行「認(rèn)知自演化規(guī)劃」的智能體表現(xiàn)出最佳的協(xié)作能力。這種策略的核心在于「復(fù)盤」——從過去的成敗中學(xué)習(xí),動(dòng)態(tài)調(diào)整策略,實(shí)現(xiàn)持續(xù)進(jìn)化。對(duì)于AI團(tuán)隊(duì)而言,一個(gè)懂得自我迭代和反思的「大腦」,比一場(chǎng)七嘴八舌的「頭腦風(fēng)暴」更加寶貴。
AI團(tuán)隊(duì)的「林格曼效應(yīng)」
圖7:不同智能體數(shù)量對(duì)KPI、CS與TS的影響。
在探究團(tuán)隊(duì)規(guī)模的影響時(shí),實(shí)驗(yàn)發(fā)現(xiàn),將智能體數(shù)量從1個(gè)增加到3個(gè)時(shí),協(xié)作分?jǐn)?shù)和任務(wù)分?jǐn)?shù)得到了提升。然而,當(dāng)繼續(xù)增加智能體數(shù)量時(shí),整體的KPI反而開始下降。
這一現(xiàn)象與組織行為學(xué)中的「林格曼效應(yīng)」(團(tuán)隊(duì)規(guī)模越大,個(gè)體貢獻(xiàn)越傾向于減少)高度吻合。團(tuán)隊(duì)規(guī)模的擴(kuò)大并非簡(jiǎn)單的「人多力量大」,這意味著,未來構(gòu)建大規(guī)模AI智能體系統(tǒng)的關(guān)鍵,將是如何設(shè)計(jì)出高效、低開銷的協(xié)作機(jī)制,以克服規(guī)模擴(kuò)張帶來的內(nèi)在復(fù)雜性。
「Aha-Moments」:當(dāng)AI開始展現(xiàn)社會(huì)智慧
MultiAgentBench最重要的發(fā)現(xiàn),或許是在「狼人殺」和「談判」這類競(jìng)爭(zhēng)性場(chǎng)景中,觀察到的一系列驚人的「涌現(xiàn)行為」。這些復(fù)雜的社會(huì)策略并非由人類編碼設(shè)計(jì),而是AI為了贏得勝利這一最終目標(biāo),自發(fā)「學(xué)習(xí)」和「演化」出來的。
戰(zhàn)略性沉默:在「狼人殺」游戲中,「預(yù)言家」智能體學(xué)會(huì)了不再第一時(shí)間公布自己的驗(yàn)人結(jié)果。它會(huì)評(píng)估風(fēng)險(xiǎn),選擇性地、在最關(guān)鍵的時(shí)刻才披露信息,以求最大化收益并保護(hù)自己。這是一種基于風(fēng)險(xiǎn)評(píng)估的「戰(zhàn)略性沉默」,是高級(jí)博弈能力的體現(xiàn)。
信任與猜忌:實(shí)驗(yàn)中,村民陣營(yíng)會(huì)因?yàn)閮?nèi)部猜忌而產(chǎn)生「內(nèi)斗」,互相攻擊;而狼人陣營(yíng)則能通過高度一致的欺騙和內(nèi)部協(xié)作,制造「虛假共識(shí)」來迷惑對(duì)手。這表明,智能體正在根據(jù)角色和信任關(guān)系,自發(fā)地形成動(dòng)態(tài)的聯(lián)盟和敵對(duì)關(guān)系。
動(dòng)態(tài)適應(yīng)環(huán)境:游戲中的「女巫」角色,其行為策略會(huì)隨著戰(zhàn)局的演進(jìn)而動(dòng)態(tài)變化。在游戲早期,它傾向于「囤積」寶貴的藥水;而到了游戲后期,為了求勝,它會(huì)變得更具「冒險(xiǎn)精神」。這展示了智能體策略的高度動(dòng)態(tài)性和對(duì)環(huán)境的適應(yīng)性。
這些「Aha-Moments」標(biāo)志著LLM智能體正在經(jīng)歷一次從純粹的「邏輯推理機(jī)器」,向具備初級(jí)社會(huì)行為能力的角色的轉(zhuǎn)變。它們正在學(xué)習(xí)和運(yùn)用人類社會(huì)互動(dòng)中最核心的元素:欺騙、信任、策略和權(quán)衡。當(dāng)一個(gè)智能體開始思考「其他智能體正在思考什么」時(shí),這正是「心智理論」的雛形。
總結(jié)
MultiAgentBench的推出,為我們打開了一扇觀察和理解AI群體智能的窗戶。它不僅僅是一個(gè)評(píng)測(cè)工具,更是一個(gè)強(qiáng)大的「社會(huì)模擬器」,系統(tǒng)性地揭示了構(gòu)建高效AI團(tuán)隊(duì)的幾條重要準(zhǔn)則:
個(gè)體能力是基石:協(xié)作是能力的放大器,而非替代品。沒有強(qiáng)大的個(gè)體,再好的團(tuán)隊(duì)協(xié)作也只是空中樓閣。
組織結(jié)構(gòu)定成?。罕馄健⑷ブ行幕木W(wǎng)絡(luò)結(jié)構(gòu)勝于層級(jí)的樹型模式,后者會(huì)帶來巨大的「組織內(nèi)耗」。
規(guī)模并非多多益善:AI團(tuán)隊(duì)同樣受「林格曼效應(yīng)」的約束,盲目擴(kuò)大規(guī)模反而會(huì)降低效率,如何設(shè)計(jì)低成本的協(xié)作機(jī)制是關(guān)鍵。
社會(huì)智能的涌現(xiàn):在合適的博弈環(huán)境下,AI能夠自發(fā)學(xué)習(xí)并展現(xiàn)出「戰(zhàn)略性沉默」、「信任分化」等高級(jí)社會(huì)行為,這是通往更高級(jí)別人工智能的希望所在。
總而言之,這項(xiàng)工作標(biāo)志著我們對(duì)AI的研究,正在從關(guān)注「?jìng)€(gè)體智商」邁向理解「群體情商」的新階段。未來,通過構(gòu)建更復(fù)雜的交互環(huán)境,我們將能更好地理解、引導(dǎo)并最終利用這種強(qiáng)大的新興智能,為解決現(xiàn)實(shí)世界中的復(fù)雜問題,邁出堅(jiān)實(shí)的一步。
《龍血戰(zhàn)神》全集免費(fèi)在線觀看無刪減完整版??格調(diào)影院??最新...
《龍血戰(zhàn)神》高清全集免費(fèi)在線觀看- 風(fēng)車影視龍血戰(zhàn)神未知未知中國(guó)大陸短劇
在線播放《龍血戰(zhàn)神第01集》-國(guó)語短劇全集完整版免費(fèi)高清在線觀看...
《龍血戰(zhàn)神》第01集_高清短劇免費(fèi)在線觀看_短劇王龍血戰(zhàn)神機(jī)緣巧合之下,成為億萬年來唯一的祖龍武者,號(hào)令天下神龍!
《龍血戰(zhàn)神》短劇全集高清完整版免費(fèi)在線觀看漢語普通話-櫻花動(dòng)漫...
龍血戰(zhàn)神_第01集云播資源免費(fèi)在線觀看_短劇_片多多龍血戰(zhàn)神中國(guó)大陸短劇《龍血戰(zhàn)神》是未知主演的一部?jī)?yōu)秀大陸短劇作品,這部短劇是關(guān)于龍血戰(zhàn)神的故事,講述了主角通過自己的努力和堅(jiān)持不斷奮斗的故事——|。
來源:紅網(wǎng)
作者:楊佩君
編輯:袁子杰
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。