機(jī)器之心報(bào)道
都在研究考生,考卷出問題了。
基準(zhǔn)測(cè)試在評(píng)估人工智能系統(tǒng)的優(yōu)勢(shì)與局限性方面具有基礎(chǔ)性作用,是引導(dǎo)科研與產(chǎn)業(yè)發(fā)展的關(guān)鍵工具。
隨著AI智能體從研究原型逐步走向關(guān)鍵任務(wù)的實(shí)際應(yīng)用,研究人員和從業(yè)者開始構(gòu)建用于評(píng)估AI智能體能力與局限性的基準(zhǔn)測(cè)試。
這和常規(guī)模型的評(píng)估方式產(chǎn)生了很大不同。由于智能體的任務(wù)通常需要一個(gè)真實(shí)場(chǎng)景,并且任務(wù)缺乏標(biāo)準(zhǔn)答案,針對(duì)AI智能體的基準(zhǔn)測(cè)試在任務(wù)設(shè)計(jì)和評(píng)估方式上要遠(yuǎn)比傳統(tǒng)AI基準(zhǔn)測(cè)試要復(fù)雜。
顯然,現(xiàn)有的智能體基準(zhǔn)測(cè)試并沒有達(dá)到一個(gè)可靠的狀態(tài)。
舉幾個(gè)例子:
在被OpenAI等機(jī)構(gòu)用于評(píng)估AI智能體網(wǎng)頁交互能力的基準(zhǔn)測(cè)試WebArena中,在某個(gè)路徑時(shí)長(zhǎng)計(jì)算任務(wù)中,AI智能體給出的答案是「45+8分鐘」,而正確答案應(yīng)為「63分鐘」,WebArena竟將其判定為正確答案。
τ-bench是一個(gè)評(píng)估AI智能體在真實(shí)世界環(huán)境中可靠性的基準(zhǔn)測(cè)試。而其將一個(gè)「無操作」的智能體在航班任務(wù)中判有38%正確率。盡管該智能體對(duì)機(jī)票政策毫無理解,結(jié)果卻錯(cuò)誤地評(píng)估了其能力。
近期加入英偉達(dá)擔(dān)任首席研究科學(xué)家的BanghuaZhu發(fā)推評(píng)論這一現(xiàn)象,認(rèn)為一個(gè)什么都不做的智能體就可以取得高達(dá)38%分?jǐn)?shù)的現(xiàn)象「非常有趣」。
此外,在目前常用的10個(gè)AI智能體基準(zhǔn)測(cè)試中(如SWE-bench、OSWorld、KernelBench等),研究在其中8個(gè)基準(zhǔn)中發(fā)現(xiàn)了嚴(yán)重的問題,有些情況下甚至?xí)?dǎo)致對(duì)AI智能體能力100%的誤判。
這些數(shù)據(jù)傳達(dá)出一個(gè)明確的信息:
現(xiàn)有智能體基準(zhǔn)測(cè)試存在大問題。若要準(zhǔn)確理解AI智能體的真實(shí)能力,必須以更嚴(yán)謹(jǐn)?shù)姆绞綐?gòu)建基準(zhǔn)測(cè)試。
在一個(gè)來自伊利諾伊大學(xué)香檳分校、斯坦福大學(xué)、伯克利大學(xué)、耶魯大學(xué)、普林斯頓大學(xué)、麻省理工學(xué)院、Transluce、MLCommons、亞馬遜和英國(guó)AISI的研究者們共同完成的最新工作中,研究人員系統(tǒng)性地剖析了當(dāng)前AI智能體基準(zhǔn)的常見失效模式,并提出了一套清單,用于最大限度降低基準(zhǔn)測(cè)試被「投機(jī)取巧」的可能性,確保其真正衡量了智能體的能力。
論文標(biāo)題:EstablishingBestPracticesforBuildingRigorousAgenticBenchmarks
現(xiàn)有的AI智能體基準(zhǔn)測(cè)試
問題出在哪?
在AI智能體的基準(zhǔn)測(cè)試中,智能體通常需要端到端地完成復(fù)雜任務(wù),例如修復(fù)大型代碼倉庫中的問題,或制定旅行計(jì)劃。
這一廣泛而現(xiàn)實(shí)的任務(wù)范圍帶來了兩項(xiàng)傳統(tǒng)AI基準(zhǔn)測(cè)試中較少遇到的挑戰(zhàn):
模擬環(huán)境脆弱:任務(wù)通常運(yùn)行在模擬或容器化的網(wǎng)站、計(jì)算機(jī)或數(shù)據(jù)庫中。如果這些空間存在漏洞或版本過舊,AI智能體可能會(huì)利用捷徑繞過任務(wù)要求,或因系統(tǒng)問題而根本無法完成任務(wù)。
缺乏明確的「標(biāo)準(zhǔn)答案」:任務(wù)的解答可能是代碼、API調(diào)用,或是篇幅較長(zhǎng)的計(jì)劃文本,難以適用統(tǒng)一的答案模板,評(píng)估標(biāo)準(zhǔn)主觀性強(qiáng)。
針對(duì)上述挑戰(zhàn),本文提出了兩個(gè)對(duì)AI智能體基準(zhǔn)測(cè)試尤為關(guān)鍵的有效性判據(jù):
任務(wù)有效性:該任務(wù)是否僅在智能體具備特定能力時(shí)才可解?
結(jié)果有效性:評(píng)估結(jié)果是否真實(shí)反映了任務(wù)完成情況?
AI智能體評(píng)估的操作流程與概念機(jī)制中,任務(wù)有效性與結(jié)果有效性至關(guān)重要,它們共同保障了基準(zhǔn)測(cè)試結(jié)果能真實(shí)反映智能體系統(tǒng)的能力水平。
本文研究:AI智能體基準(zhǔn)測(cè)試檢查單
本文整理并發(fā)布了AI智能體基準(zhǔn)測(cè)試檢查清單(ABC),該清單包含43項(xiàng)條目,基于來自主流AI機(jī)構(gòu)使用的17個(gè)AI智能體基準(zhǔn)測(cè)試提煉而成。
ABC主要由三個(gè)部分組成:結(jié)果有效性檢查項(xiàng)、任務(wù)有效性檢查項(xiàng),以及在理想有效性難以實(shí)現(xiàn)的情況下用于補(bǔ)充說明的基準(zhǔn)報(bào)告指南。
完整、適合打印的檢查清單已公開發(fā)布,可參閱以下文檔。
運(yùn)用ABC的研究發(fā)現(xiàn)
本文將ABC檢查清單應(yīng)用于當(dāng)前主流的十個(gè)AI智能體基準(zhǔn)測(cè)試中,包括SWE-benchVerified、WebArena、OSWorld等。
將ABC運(yùn)用在10個(gè)廣泛應(yīng)用的智能體基準(zhǔn)測(cè)試中的結(jié)果
在這10個(gè)基準(zhǔn)中,發(fā)現(xiàn):
7/10含有可被AI智能體「投機(jī)取巧」的捷徑或根本無法完成的任務(wù);
7/10不符合結(jié)果有效性標(biāo)準(zhǔn),即評(píng)估結(jié)果不能真實(shí)反映任務(wù)完成情況;
8/10未公開其已知問題,缺乏透明度。
以下是在當(dāng)前用于評(píng)估前沿AI智能體系統(tǒng)(如ClaudeCode與OpenAIOperator)的基準(zhǔn)測(cè)試中識(shí)別出的問題:
SWE-bench與SWE-benchVerified借助手動(dòng)編寫的單元測(cè)試,用于驗(yàn)證AI智能體生成的代碼補(bǔ)丁是否正確。然而,這些補(bǔ)丁可能仍然存在未被單元測(cè)試覆蓋的錯(cuò)誤。
對(duì)這些基準(zhǔn)測(cè)試中的單元測(cè)試進(jìn)行擴(kuò)充后,排行榜結(jié)果出現(xiàn)了明顯變化:SWE-benchLite中有41%的智能體排名發(fā)生變動(dòng),SWE-benchVerified中則有24%的智能體受影響。
IBMSWE-1.0智能體生成了一個(gè)錯(cuò)誤的解決方案,但該錯(cuò)誤未被SWE-bench檢測(cè)出來,因?yàn)槠鋯卧獪y(cè)試未覆蓋代碼中的紅色分支路徑。
KernelBench采用帶有隨機(jī)值的張量來評(píng)估AI智能體生成的CUDA核函數(shù)代碼的正確性。與SWE-benchVerified類似,這種基于隨機(jī)值張量的測(cè)試方法可能無法發(fā)現(xiàn)生成代碼中的某些錯(cuò)誤,特別是涉及內(nèi)存訪問或張量形狀的缺陷。
τ-bench則通過子字符串匹配與數(shù)據(jù)庫狀態(tài)匹配來評(píng)估智能體的表現(xiàn),這使得一個(gè)「無操作」智能體竟然能通過38%的任務(wù)。以下示例展示了其中一類任務(wù),即使智能體什么都不做,也能通過評(píng)估。
τ-bench中一個(gè)示例任務(wù)
WebArena采用嚴(yán)格的字符串匹配和一個(gè)較為原始的LLM評(píng)判器(LLM-judge)來評(píng)估智能體的行為與輸出是否正確,這導(dǎo)致在絕對(duì)指標(biāo)上對(duì)智能體性能產(chǎn)生了1.6%至5.2%的誤判。
OSWorld的智能體評(píng)估部分基于已過時(shí)的網(wǎng)站構(gòu)建,因而在絕對(duì)指標(biāo)上造成了28%的性能低估。在下列示例中,智能體所交互的網(wǎng)站已移除search-date這一CSS類,但評(píng)估器仍依賴過時(shí)的選擇器,最終將智能體本應(yīng)正確的操作判定為錯(cuò)誤。
OSWorld的評(píng)估器仍在查找已過時(shí)的類名search-date和search-segment-cities__city,從而導(dǎo)致智能體失敗。
SWE-Lancer未能安全地存儲(chǔ)測(cè)試文件,這使得智能體可以覆蓋測(cè)試內(nèi)容,從而「通過」全部測(cè)試。
ABC的后續(xù)方向
本文構(gòu)建了ABC,旨在提供一個(gè)可操作的評(píng)估框架,以幫助:
基準(zhǔn)測(cè)試開發(fā)者排查潛在問題,或展示其評(píng)估工作的嚴(yán)謹(jǐn)性;
智能體/模型開發(fā)者深入理解評(píng)估基準(zhǔn)的本質(zhì),而非僅停留在報(bào)告「最先進(jìn)性能數(shù)字」層面。
延伸閱讀:與 什么都:不做就能得分 智能體基準(zhǔn)測(cè)試出現(xiàn)大問!!題 的相關(guān)文章