隨著大模型的發(fā)展,大模型的能力正在從單輪靜態(tài)的問(wèn)答、推理任務(wù)拓展到多步的、交互式的智能體任務(wù),在軟件開(kāi)發(fā)、電腦使用、游戲博弈等任務(wù)中提出相應(yīng)的測(cè)試基準(zhǔn)和方法。然而,現(xiàn)有的測(cè)試基準(zhǔn)主要集中在單智能體或純文本環(huán)境,缺少多智能體、多模態(tài)的大模型智能體測(cè)試基準(zhǔn),因此在近期一項(xiàng)研究中清華大學(xué)教授汪玉團(tuán)隊(duì)的博士生徐澤來(lái)和合作者提出了VS-Bench(VisualStrategicBench),以用于評(píng)估視覺(jué)語(yǔ)言模型(VLM,Vision-LanguageModel)在多智能體任務(wù)中的推理和決策能力。
為什么要在多智能體任務(wù)中評(píng)估大模型?因?yàn)楝F(xiàn)實(shí)世界就是一個(gè)多智能體的環(huán)境,這樣的環(huán)境給大模型的能力提出了新的挑戰(zhàn)。
首先,在推理方面,因?yàn)槎嘀悄荏w環(huán)境的結(jié)果依賴于所有智能體的聯(lián)合動(dòng)作,所以智能體不僅需要自己能選擇合理的動(dòng)作,還要能夠預(yù)測(cè)其他智能體的動(dòng)作,即theoryofmind的推理能力,才能在多智能體環(huán)境中取得好的效果。
其次,在決策方面,因?yàn)槎嘀悄荏w環(huán)境中存在智能體之間的合作和競(jìng)爭(zhēng),同時(shí)各智能體的策略和行為也在不斷變化,使得環(huán)境變得非平穩(wěn),從而要求智能體要在不確定性更強(qiáng)的環(huán)境中優(yōu)化自己的長(zhǎng)期目標(biāo),對(duì)其決策能力提出了更大的挑戰(zhàn)。
(來(lái)源:https://arxiv.org/pdf/2506.02387)
基于此,在本次研究之中,研究團(tuán)隊(duì)提出了新的測(cè)試基準(zhǔn)VS-Bench,以用于評(píng)估視覺(jué)語(yǔ)言模型在多智能體任務(wù)中的推理和決策能力,包含了合作、對(duì)抗、混合三種類型的8個(gè)多智能體環(huán)境。研究團(tuán)隊(duì)提出了2種互補(bǔ)的評(píng)估方式,一種是離線的策略推理(strategicreasoning)能力,通過(guò)智能體對(duì)其他智能體下一步動(dòng)作的預(yù)測(cè)準(zhǔn)確率來(lái)評(píng)估;另一種是在線的決策能力(decision-making),通過(guò)智能體獲得的長(zhǎng)期回報(bào)來(lái)評(píng)估。研究團(tuán)隊(duì)對(duì)包含推理模型、對(duì)話模型、開(kāi)源模型三種共14個(gè)先進(jìn)的視覺(jué)語(yǔ)言模型進(jìn)行了測(cè)試,有以下主要發(fā)現(xiàn):
圖|徐澤來(lái)(來(lái)源:徐澤來(lái))
主要發(fā)現(xiàn)之一是:現(xiàn)有大模型具有初步的策略推理能力,但距離準(zhǔn)確預(yù)測(cè)其他智能體的動(dòng)作還有較大差距。所有14個(gè)大模型都超過(guò)了隨機(jī)智能體(隨機(jī)推理),但結(jié)果最好的大模型o4-mini也只有47.8%的綜合準(zhǔn)確率。整體而言,推理模型最強(qiáng),而對(duì)話模型和開(kāi)源模型性能接近。
(來(lái)源:https://arxiv.org/pdf/2506.02387)
主要發(fā)現(xiàn)之二是:現(xiàn)有大模型在多智能體任務(wù)中的決策能力很弱。14個(gè)大模型中的10個(gè)都只得到了和隨機(jī)智能體相近的綜合分?jǐn)?shù),只有3個(gè)推理模型明顯優(yōu)于隨機(jī)智能體,但是性能最好的大模型o4-mini也只有24.3%的綜合得分。
(來(lái)源:https://arxiv.org/pdf/2506.02387)
徐澤來(lái)指出,在絕大多數(shù)任務(wù)和環(huán)境中,推理模型都顯著優(yōu)于對(duì)話模型和開(kāi)源模型,但是在某些多智能體社會(huì)困境的任務(wù)中,開(kāi)源模型性能有顯著的提升,甚至超過(guò)了部分推理模型。他們通過(guò)分析發(fā)現(xiàn),這是因?yàn)殚_(kāi)源模型雖然單個(gè)模型能力較差,但更傾向于合作共贏的行為,從而在這些任務(wù)中得到甚至超越推理模型的結(jié)果。
具體而言,本次研究的環(huán)境中有一個(gè)類似囚徒困境的環(huán)境,如果各個(gè)智能體合作則都能雙贏,但智能體可能會(huì)為了更大的個(gè)人利益而選擇背叛,而如果所有智能體都背叛則會(huì)陷入雙輸。研究團(tuán)隊(duì)發(fā)現(xiàn)推理模型通常更加“理性”,更有可能為了個(gè)人利益而選擇背叛;而開(kāi)源模型更傾向于合作,從而讓各個(gè)智能體都能得到較高的收益。
圖|本次論文的共同作者徐哲軒(來(lái)源:徐哲軒)
圖|本次論文的共同作者易翔敏(來(lái)源:易翔敏)
未來(lái),他們希望該工作能夠成為大模型在多智能體任務(wù)中的一個(gè)測(cè)試基準(zhǔn),推動(dòng)領(lǐng)域內(nèi)多智能體算法和應(yīng)用的進(jìn)步,從而使大模型智能體能被更好地應(yīng)用在游戲AI、人機(jī)協(xié)作等多智能體場(chǎng)景中。
下一步,研究團(tuán)隊(duì)計(jì)劃從幾個(gè)方向來(lái)進(jìn)一步擴(kuò)展本次工作:
首先,要進(jìn)行人類實(shí)驗(yàn)。讓人類和大模型完成同樣的任務(wù),得到平均人類的分?jǐn)?shù),從而更好地評(píng)估大模型現(xiàn)在的能力。
其次,要拓展環(huán)境和模型。為此,研究團(tuán)隊(duì)計(jì)劃加入更多不同類型和難度的多智能體環(huán)境,并測(cè)試更多更新的大模型。
參考資料:
https://arxiv.org/pdf/2506.02387
運(yùn)營(yíng)/排版:何晨龍
言情小說(shuō)《毒醫(yī)狂妃:邪王的心尖寵》如何能撩到常年單身的你
高頻搜索《毒醫(yī)狂妃:邪王心尖寵》如何速速來(lái)看!
神奇小說(shuō)《毒醫(yī)狂妃:邪王的心尖寵》為何讓讀者為之瘋狂?不吃不睡...