隨著大模型的發(fā)展,大模型的能力正在從單輪靜態(tài)的問答、推理任務(wù)拓展到多步的、交互式的智能體任務(wù),在軟件開發(fā)、電腦使用、游戲博弈等任務(wù)中提出相應(yīng)的測(cè)試基準(zhǔn)和方法。然而,現(xiàn)有的測(cè)試基準(zhǔn)主要集中在單智能體或純文本環(huán)境,缺少多智能體、多模態(tài)的大模型智能體測(cè)試基準(zhǔn),因此在近期一項(xiàng)研究中清華大學(xué)教授汪玉團(tuán)隊(duì)的博士生徐澤來和合作者提出了VS-Bench(VisualStrategicBench),以用于評(píng)估視覺語言模型(VLM,Vision-LanguageModel)在多智能體任務(wù)中的推理和決策能力。
為什么要在多智能體任務(wù)中評(píng)估大模型?因?yàn)楝F(xiàn)實(shí)世界就是一個(gè)多智能體的環(huán)境,這樣的環(huán)境給大模型的能力提出了新的挑戰(zhàn)。
首先,在推理方面,因?yàn)槎嘀悄荏w環(huán)境的結(jié)果依賴于所有智能體的聯(lián)合動(dòng)作,所以智能體不僅需要自己能選擇合理的動(dòng)作,還要能夠預(yù)測(cè)其他智能體的動(dòng)作,即theoryofmind的推理能力,才能在多智能體環(huán)境中取得好的效果。
其次,在決策方面,因?yàn)槎嘀悄荏w環(huán)境中存在智能體之間的合作和競(jìng)爭(zhēng),同時(shí)各智能體的策略和行為也在不斷變化,使得環(huán)境變得非平穩(wěn),從而要求智能體要在不確定性更強(qiáng)的環(huán)境中優(yōu)化自己的長(zhǎng)期目標(biāo),對(duì)其決策能力提出了更大的挑戰(zhàn)。
(來源:https://arxiv.org/pdf/2506.02387)
基于此,在本次研究之中,研究團(tuán)隊(duì)提出了新的測(cè)試基準(zhǔn)VS-Bench,以用于評(píng)估視覺語言模型在多智能體任務(wù)中的推理和決策能力,包含了合作、對(duì)抗、混合三種類型的8個(gè)多智能體環(huán)境。研究團(tuán)隊(duì)提出了2種互補(bǔ)的評(píng)估方式,一種是離線的策略推理(strategicreasoning)能力,通過智能體對(duì)其他智能體下一步動(dòng)作的預(yù)測(cè)準(zhǔn)確率來評(píng)估;另一種是在線的決策能力(decision-making),通過智能體獲得的長(zhǎng)期回報(bào)來評(píng)估。研究團(tuán)隊(duì)對(duì)包含推理模型、對(duì)話模型、開源模型三種共14個(gè)先進(jìn)的視覺語言模型進(jìn)行了測(cè)試,有以下主要發(fā)現(xiàn):
圖|徐澤來(來源:徐澤來)
主要發(fā)現(xiàn)之一是:現(xiàn)有大模型具有初步的策略推理能力,但距離準(zhǔn)確預(yù)測(cè)其他智能體的動(dòng)作還有較大差距。所有14個(gè)大模型都超過了隨機(jī)智能體(隨機(jī)推理),但結(jié)果最好的大模型o4-mini也只有47.8%的綜合準(zhǔn)確率。整體而言,推理模型最強(qiáng),而對(duì)話模型和開源模型性能接近。
(來源:https://arxiv.org/pdf/2506.02387)
主要發(fā)現(xiàn)之二是:現(xiàn)有大模型在多智能體任務(wù)中的決策能力很弱。14個(gè)大模型中的10個(gè)都只得到了和隨機(jī)智能體相近的綜合分?jǐn)?shù),只有3個(gè)推理模型明顯優(yōu)于隨機(jī)智能體,但是性能最好的大模型o4-mini也只有24.3%的綜合得分。
(來源:https://arxiv.org/pdf/2506.02387)
徐澤來指出,在絕大多數(shù)任務(wù)和環(huán)境中,推理模型都顯著優(yōu)于對(duì)話模型和開源模型,但是在某些多智能體社會(huì)困境的任務(wù)中,開源模型性能有顯著的提升,甚至超過了部分推理模型。他們通過分析發(fā)現(xiàn),這是因?yàn)殚_源模型雖然單個(gè)模型能力較差,但更傾向于合作共贏的行為,從而在這些任務(wù)中得到甚至超越推理模型的結(jié)果。
具體而言,本次研究的環(huán)境中有一個(gè)類似囚徒困境的環(huán)境,如果各個(gè)智能體合作則都能雙贏,但智能體可能會(huì)為了更大的個(gè)人利益而選擇背叛,而如果所有智能體都背叛則會(huì)陷入雙輸。研究團(tuán)隊(duì)發(fā)現(xiàn)推理模型通常更加“理性”,更有可能為了個(gè)人利益而選擇背叛;而開源模型更傾向于合作,從而讓各個(gè)智能體都能得到較高的收益。
圖|本次論文的共同作者徐哲軒(來源:徐哲軒)
圖|本次論文的共同作者易翔敏(來源:易翔敏)
未來,他們希望該工作能夠成為大模型在多智能體任務(wù)中的一個(gè)測(cè)試基準(zhǔn),推動(dòng)領(lǐng)域內(nèi)多智能體算法和應(yīng)用的進(jìn)步,從而使大模型智能體能被更好地應(yīng)用在游戲AI、人機(jī)協(xié)作等多智能體場(chǎng)景中。
下一步,研究團(tuán)隊(duì)計(jì)劃從幾個(gè)方向來進(jìn)一步擴(kuò)展本次工作:
首先,要進(jìn)行人類實(shí)驗(yàn)。讓人類和大模型完成同樣的任務(wù),得到平均人類的分?jǐn)?shù),從而更好地評(píng)估大模型現(xiàn)在的能力。
其次,要拓展環(huán)境和模型。為此,研究團(tuán)隊(duì)計(jì)劃加入更多不同類型和難度的多智能體環(huán)境,并測(cè)試更多更新的大模型。
參考資料:
https://arxiv.org/pdf/2506.02387
運(yùn)營(yíng)/排版:何晨龍
定好的試管嬰兒 突然變成了要跟那個(gè)男人同床懷孕, 一夜纏綿, 她被折磨的渾身癱軟 慕少凌, 慕家高高在上的繼承人, 沉穩(wěn)矜貴, 冷厲霸道, 這世上的事, 只有他不想辦的, 沒有他辦不到的! 本以為生下孩子后跟他再無關(guān)系, 豈料五年后, 男人拖著兩個(gè)萌寶強(qiáng)硬的把她壁咚在員工宿舍樓下, 眾目睽睽! 慕先生在所有人面前高冷禁欲, 卻只她一人面前色胚流氓 寶貝, 你勾起了我的饞蟲, 讓我吃上了癮 “ ” 延伸閱讀:與 借鑒了俄烏沖突中雙方對(duì)自殺式無人機(jī):(使用|的經(jīng))驗(yàn)教訓(xùn) 的相關(guān)文章