葉弘月
第一作者孫秋實(shí)是香港大學(xué)計(jì)算與數(shù)據(jù)科學(xué)學(xué)院博士生,碩士畢業(yè)于新加坡國(guó)立大學(xué)數(shù)據(jù)科學(xué)系。主要研究方向?yàn)镃omputer-usingagents和Codeintelligence,在NLP和ML頂會(huì)ACL,EMNLP,ICLR,COLM等發(fā)表多篇論文。本文的OS-Copilot團(tuán)隊(duì)此前已發(fā)布了OS-Atlas、OS-Genesis和SeeClick等同系列電腦智能體研究成果,被廣泛應(yīng)用于學(xué)術(shù)界與產(chǎn)業(yè)實(shí)踐中。
用于輔助科學(xué)研究的大模型智能體,正在悄然發(fā)生變化
1背景與動(dòng)機(jī)
過(guò)去幾年,隨著LLMs和VLMs的飛速進(jìn)步,我們見(jiàn)證了AI在自然語(yǔ)言處理、編程、圖像理解等領(lǐng)域的廣泛應(yīng)用。而在科學(xué)研究這一關(guān)乎人類(lèi)知識(shí)積累的關(guān)鍵場(chǎng)域,基于這些強(qiáng)大模型的智能體正悄然成為科研工作流的“新型合作者”。
在早期,AI在科學(xué)中的角色往往是“分析器”——幫助分析數(shù)據(jù)、撰寫(xiě)文獻(xiàn)、生成圖表。但隨著電腦智能體(Computer-UsingAgents,也稱CUA)的出現(xiàn),這一角色正在發(fā)生根本性轉(zhuǎn)變。相比于傳統(tǒng)的語(yǔ)言模型助手,這類(lèi)智能體能夠像人類(lèi)一樣操作計(jì)算機(jī),通過(guò)圖形界面點(diǎn)擊、拖拽、輸入命令,或是編寫(xiě)程序完成計(jì)算任務(wù),完成對(duì)真實(shí)科研軟件的自動(dòng)化控制。這意味著,它們不再只是回答問(wèn)題,而是在主動(dòng)與你一起完成科學(xué)任務(wù),成為具備“執(zhí)行能力”的AI合作者。
1-1從語(yǔ)言理解走向科研執(zhí)行:全新的挑戰(zhàn)
在復(fù)雜的科研場(chǎng)景中,軟件工具的多樣性、任務(wù)流程的長(zhǎng)周期、跨模態(tài)信息的交錯(cuò),令“用AI真正完成一項(xiàng)科研任務(wù)”遠(yuǎn)比解答一個(gè)科學(xué)問(wèn)題要困難得多。例如,模擬蛋白質(zhì)結(jié)構(gòu)需要調(diào)用生物建模軟件,查看星體軌跡要熟練操作天文模擬器,甚至還需要自動(dòng)將結(jié)果整理進(jìn)LaTeX文檔。實(shí)現(xiàn)這樣的能力,需要智能體具備:
軟件操作能力:能夠使用圖形界面(GUI)與命令行(CLI)控制復(fù)雜科學(xué)工具;
領(lǐng)域理解能力:理解任務(wù)背后的科學(xué)概念與背景知識(shí);
跨模態(tài)感知與規(guī)劃:在圖形界面、終端指令、科學(xué)數(shù)據(jù)之間進(jìn)行有效推理和行動(dòng)。
然而,現(xiàn)有的多模態(tài)智能體系統(tǒng)大多在網(wǎng)頁(yè)、電商、編程等通用任務(wù)上取得了一定進(jìn)展,在科學(xué)領(lǐng)域卻還在蹣跚學(xué)步。一個(gè)很重要的原因在于:缺乏一個(gè)真實(shí)、系統(tǒng)化的科研環(huán)境與評(píng)估基準(zhǔn),來(lái)推動(dòng)agent從“會(huì)說(shuō)會(huì)寫(xiě)會(huì)敲代碼”走向“會(huì)做”。
1-2科研任務(wù)中的空白:環(huán)境與評(píng)測(cè)的雙重缺失
盡管社區(qū)已提出多項(xiàng)CUA智能體評(píng)測(cè)(如WebArena、OSWorld等),但這些工作大多集中在日常場(chǎng)景和通用軟件上,其復(fù)雜性遠(yuǎn)未觸及真實(shí)科研工作。而以ScienceQA和SciCode為代表的科學(xué)評(píng)測(cè)人任務(wù),其任務(wù)方式依然停留在QA和靜態(tài)的代碼編寫(xiě)上。在真實(shí)的科學(xué)探索過(guò)程中,軟件工具往往具有非標(biāo)準(zhǔn)I/O流、復(fù)雜界面邏輯、需要先配置再執(zhí)行、多步操作才能完成目標(biāo)——這對(duì)智能體提出了前所未有的挑戰(zhàn)。因此,我們需要(1)一個(gè)可靠的環(huán)境讓Agent可以進(jìn)行自主探索以及(2)一個(gè)多模態(tài)多領(lǐng)域的評(píng)測(cè)基準(zhǔn),來(lái)了解科學(xué)任務(wù)的自動(dòng)化可以被完成到何種程度
在這樣的背景下,我們提出了ScienceBoard:首個(gè)面向科學(xué)任務(wù)、真實(shí)交互、自動(dòng)評(píng)估的多模態(tài)智能體評(píng)測(cè)環(huán)境,目標(biāo)是從根本上推動(dòng)“會(huì)自動(dòng)完成科學(xué)工作流的AI”的研究進(jìn)展。
論文題目:
ScienceBoard:EvaluatingMultimodalAutonomousAgentsinRealisticScientificWorkflows
項(xiàng)目地址:
https://qiushisun.github.io/ScienceBoard-Home/
研究機(jī)構(gòu):香港大學(xué),上海人工智能實(shí)驗(yàn)室,復(fù)旦大學(xué),北京大學(xué),耶魯大學(xué)
2ScienceBoard基建:科研任務(wù)的可交互操作環(huán)境
2-1多領(lǐng)域科研軟件集成
ScienceBoard基于Ubuntu虛擬機(jī)搭建,內(nèi)置了多個(gè)開(kāi)源科研軟件,并對(duì)其進(jìn)行了系統(tǒng)性的重構(gòu)和改造,確保每個(gè)任務(wù)都能通過(guò)CLI/GUI雙通道進(jìn)行交互。整個(gè)系統(tǒng)具備以下特點(diǎn):
多領(lǐng)域科研軟件集成:作為一個(gè)可擴(kuò)展的環(huán)境,ScienceBoard默認(rèn)集成了6個(gè)科學(xué)領(lǐng)域的軟件,包括生物化學(xué),天文模擬,地理信息系統(tǒng)等。
雙模態(tài)操作接口:每個(gè)軟件均支持GUI和CLI控制,支持屏幕截圖(Screenshots)、可訪問(wèn)性樹(shù)(a11ytree)和Set-of-Marks等多模態(tài)輸入,允許agent靈活選擇交互方式。
自動(dòng)初始化機(jī)制:每個(gè)工作場(chǎng)景都配備初始化腳本、配置文件、輔助數(shù)據(jù),確保agent可以從相同起點(diǎn)開(kāi)始實(shí)驗(yàn),保證評(píng)測(cè)可復(fù)現(xiàn)性。
可靠的自動(dòng)評(píng)估機(jī)制:作者們編寫(xiě)了一整套可擴(kuò)展的任務(wù)評(píng)估函數(shù),支持?jǐn)?shù)值匹配、范圍區(qū)間、狀態(tài)對(duì)比等方式,對(duì)復(fù)雜科學(xué)操作實(shí)現(xiàn)執(zhí)行級(jí)評(píng)估(execution-basedevaluation)。
2-2動(dòng)作空間
為了讓agent能在不同任務(wù)中使用統(tǒng)一接口與動(dòng)作表示,ScienceBoard在先前CUA/CodingAgents工作的基礎(chǔ)上進(jìn)行了擴(kuò)展,為Agents定義了一個(gè)通用動(dòng)作空間,涵蓋以下幾類(lèi)操作:
GUI操作動(dòng)作:如CLICK[x,y]、SCROLL[Δy]、TYPE[“text”]等模擬人類(lèi)操作
CLI命令執(zhí)行:在終端/軟件內(nèi)部輸入代碼指令并獲取反饋
其它類(lèi)型調(diào)用:
ocall_api:訪問(wèn)外部API拓展agent能力
oanswer[“...”]:用于任務(wù)型QA作答
流程控制動(dòng)作:如DONE,FAIL等用于表明交互終止
這樣的設(shè)計(jì)使得通過(guò)LLM/VLM構(gòu)建的不同agent在ScienceBoard環(huán)境中都能通過(guò)結(jié)構(gòu)化API實(shí)現(xiàn)通用交互能力,真正具備“跨軟件、跨模態(tài)”的通用執(zhí)行接口。
3ScienceBoard評(píng)測(cè)集:高質(zhì)量科研任務(wù)數(shù)據(jù)集
基于上述的多模態(tài)科學(xué)探索環(huán)境基建,ScienceBoard構(gòu)建了一個(gè)系統(tǒng)化、具挑戰(zhàn)性的科研任務(wù)集合,作為評(píng)估AI智能體科學(xué)能力的標(biāo)準(zhǔn)基準(zhǔn)。該基準(zhǔn)不僅覆蓋多種科研軟件,還充分考慮任務(wù)多樣性、復(fù)雜度和可執(zhí)行性,目標(biāo)是推動(dòng)智能體從“看得懂”走向“做得對(duì)”。
3-1科學(xué)探索問(wèn)題的構(gòu)建
要評(píng)估一個(gè)智能體是否真正具備完成科學(xué)任務(wù)的能力,關(guān)鍵不僅在于環(huán)境,更在于任務(wù)本身是否足夠真實(shí)、足夠復(fù)雜、足夠可衡量。為此,ScienceBoard采用了人工設(shè)計(jì)+程序驗(yàn)證的混合標(biāo)注流程:由學(xué)習(xí)過(guò)相關(guān)領(lǐng)域知識(shí)的人員基于真實(shí)軟件手冊(cè)構(gòu)思任務(wù)目標(biāo),通過(guò)多輪交叉驗(yàn)證確保指令清晰、操作合理,再配套自動(dòng)初始化腳本與程序化評(píng)估函數(shù),最終構(gòu)成一個(gè)高度標(biāo)準(zhǔn)化、可復(fù)現(xiàn)、可自動(dòng)評(píng)估的科研任務(wù)集合。
3-2多維評(píng)測(cè)基準(zhǔn)
ScienceBoard的當(dāng)前版本共收錄169個(gè)真實(shí)科研任務(wù),橫跨6個(gè)領(lǐng)域(及其對(duì)應(yīng)配套的軟件),任務(wù)類(lèi)型涵蓋:基礎(chǔ)軟件與環(huán)境設(shè)置,科學(xué)模擬與計(jì)算,圖形繪制與空間可視化,數(shù)據(jù)查詢與結(jié)果解釋,科研文檔撰寫(xiě)與整合,跨軟件復(fù)合工作流等等
為系統(tǒng)性考察智能體的不同層級(jí)能力,任務(wù)被劃分為四類(lèi)難度:
Easy(~54%):執(zhí)行單步配置、簡(jiǎn)單計(jì)算和編程、操作界面
Medium(~28%):涉及多步指令、邏輯推理或跨模態(tài)狀態(tài)跟蹤與記憶
Hard(~17%):需完成Long-horizon規(guī)劃、精細(xì)的GUI定位、多程序協(xié)作等
OpenProblems:當(dāng)前SOTA模型仍不可能完成的開(kāi)放探索挑戰(zhàn)性任務(wù)
4實(shí)驗(yàn)與評(píng)估
我們?cè)赟cienceBoard評(píng)測(cè)基準(zhǔn)上評(píng)估了當(dāng)前代表性的(1)商業(yè)模型(2)開(kāi)源模型(3)GUI基座模型所構(gòu)建的智能體的表現(xiàn),結(jié)果揭示:即便是當(dāng)今最強(qiáng)的多模態(tài)大模型,在真實(shí)科研工作流中也遠(yuǎn)未成熟。
4-1主要實(shí)驗(yàn)
在整體任務(wù)成功率上:
1.GPT-4o和Claude3.5等商業(yè)大模型雖領(lǐng)先于開(kāi)源模型,但平均成功率也僅為15%左右;
2.開(kāi)源的InternVL3和Qwen2.5-VL在部分任務(wù)上有超越商業(yè)模型的表現(xiàn),但跨領(lǐng)域表現(xiàn)仍不穩(wěn)定;
專門(mén)設(shè)計(jì)的GUIActionModels如OS-ATLAS、UGround等,雖然對(duì)接系統(tǒng)更輕量,卻在長(zhǎng)任務(wù)、跨模態(tài)任務(wù)上明顯受限。
可以從實(shí)驗(yàn)中看出:完成科學(xué)工作流的門(mén)檻遠(yuǎn)高于Webbrowsing任務(wù)或移動(dòng)/桌面端應(yīng)用的交互。模型需要在視覺(jué)、結(jié)構(gòu)化數(shù)據(jù)、復(fù)雜指令之間基于領(lǐng)域知識(shí)多輪推理、長(zhǎng)程規(guī)劃。
更重要的是,我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn):許多失敗并非源于模型知識(shí)不足,而是執(zhí)行策略不當(dāng)。例如,模型可能正確理解了“導(dǎo)出蛋白質(zhì)結(jié)構(gòu)圖”,卻因點(diǎn)擊順序錯(cuò)誤而未能完成任務(wù)。
4-2拆解規(guī)劃與動(dòng)作
進(jìn)一步的分析實(shí)驗(yàn)還揭示了一個(gè)耐人尋味的趨勢(shì):許多失敗的智能體其實(shí)“知道要做什么”,卻“做不好”。以GPT-4o為代表的模型,在任務(wù)規(guī)劃上展現(xiàn)了強(qiáng)大的理解能力,但在面對(duì)真實(shí)界面時(shí),常因點(diǎn)擊不準(zhǔn)(e.g.,無(wú)法點(diǎn)中正確的星球)、路徑偏差而執(zhí)行失敗。這表明:當(dāng)前模型在“想清楚”與“做準(zhǔn)確”之間仍存在斷層。
為進(jìn)一步驗(yàn)證這一現(xiàn)象,我們嘗試將規(guī)劃(Planning)與執(zhí)行(Action)解耦,構(gòu)建模塊化智能體系統(tǒng):由GPT-4o負(fù)責(zé)生成高階計(jì)劃,再由各類(lèi)開(kāi)源VLM或GUIActionModel執(zhí)行具體操作。
實(shí)驗(yàn)結(jié)果顯示:這種模塊化設(shè)計(jì)顯著提升了成功率,尤其在界面復(fù)雜、操作鏈條長(zhǎng)的科研軟件任務(wù)中,能夠更穩(wěn)健地完成目標(biāo)。
5展望
ScienceBoard的實(shí)驗(yàn)表明,當(dāng)前智能體的瓶頸不僅在操作層,更在于領(lǐng)域知識(shí)與通用agent能力的割裂。許多模型可以正確地執(zhí)行點(diǎn)擊或輸入命令,但缺乏對(duì)科學(xué)任務(wù)背后知識(shí)的理解。因此,未來(lái)的關(guān)鍵方向在于:讓智能體真正“理解科學(xué)”。這或許包括利用Manual與Tutorial等資源進(jìn)行“任務(wù)相關(guān)學(xué)習(xí)”,或構(gòu)建可根據(jù)上下文調(diào)用外部知識(shí)的系統(tǒng),
另一個(gè)值得關(guān)注的方向是智能體系統(tǒng)。我們的實(shí)驗(yàn)顯示,即使是簡(jiǎn)單的“分工合作”策略(如GPT-4o負(fù)責(zé)計(jì)劃、其他模型負(fù)責(zé)執(zhí)行)也能帶來(lái)顯著收益。這為未來(lái)的“科研AI團(tuán)隊(duì)”奠定了雛形:一個(gè)系統(tǒng)可能由具備強(qiáng)邏輯推理能力的planner、擅長(zhǎng)執(zhí)行的GUI模型、掌握專業(yè)知識(shí)的領(lǐng)域?qū)<夷P徒M成。它們可按需組合,靈活適配科研生命周期中的不同階段,從數(shù)據(jù)分析、圖表生成到論文潤(rùn)色,真正成為“可編排、可插拔”的科研伙伴。
更長(zhǎng)遠(yuǎn)地看,ScienceBoard提出的框架也為實(shí)驗(yàn)室層面的智能化探索打下了基礎(chǔ)。從虛擬科研助手,到物理實(shí)驗(yàn)機(jī)器人,從Coding/QA模型到實(shí)驗(yàn)助手,AI科學(xué)家的未來(lái),不再只是數(shù)字世界里的概念,而是正在緩慢走向現(xiàn)實(shí)。
6結(jié)束語(yǔ)
作為首個(gè)聚焦科學(xué)探索任務(wù)的多模態(tài)智能體評(píng)測(cè)框架。ScienceBoard提供了一個(gè)真實(shí)可交互的科研環(huán)境,精心設(shè)計(jì)了具有代表性的科研任務(wù),并配套程序化評(píng)估機(jī)制,系統(tǒng)性評(píng)估現(xiàn)有模型在科學(xué)任務(wù)上的表現(xiàn)。實(shí)驗(yàn)發(fā)現(xiàn),即便是當(dāng)前最強(qiáng)的通用模型,在復(fù)雜科研工作流中的成功率仍顯著低于人類(lèi),盡管智能體自動(dòng)化科學(xué)探索仍是一個(gè)長(zhǎng)期目標(biāo),但本工作提供了一個(gè)可復(fù)現(xiàn)、可衡量、可擴(kuò)展的起點(diǎn),也為通向全自動(dòng)化AI科學(xué)家之路點(diǎn)亮了第一盞燈。
言情小說(shuō)《總裁太會(huì)寵》如何大家看了都忍不住點(diǎn)贊作者
1《總裁太會(huì)寵》——作者:梨心悠悠你精彩內(nèi)容:赫筠深伸手重新將她攬入懷中,安顏身子一僵,想和他保持一點(diǎn)點(diǎn)距離,但卻被他越摟越緊——-。“看來(lái)你還有力氣_——?!薄啊卑差仜](méi)敢吭聲,這一次,她不敢亂動(dòng)了,生怕赫筠深會(huì)對(duì)她做那種事情。安顏迷迷糊糊,到了后半夜也就徹底睡去了||。聽(tīng)著她均勻的呼吸聲說(shuō)完了|。
霸道總裁寵妻文:《總裁太會(huì)寵》赫少宣誓“余生只想把你寵上天”
如若不是管家的攙扶,赫毅卿下一秒就會(huì)跌倒在地!急火攻心,赫毅卿最終還是撐不住的倒了過(guò)去。“老爺,老爺!”赫筠深瞧著眼前昏倒的父親,他依然面色冷峻,薄唇微啟,淡淡的吩咐道:“伍揚(yáng)_|?!薄昂湛??!蔽閾P(yáng)迅速邁步上前-?!皠e讓他死了-?!焙阵奚顦O為冷淡的吩咐了一聲,而后便將視線移到了安顏身上——-?!?.
甜文:《總裁太會(huì)寵》全程高甜無(wú)虐,狗糧管飽,不看就虧了!
總裁太會(huì)寵書(shū)評(píng):作者:梨心悠悠,超級(jí)寵,余生只想寵她上天!婚后,照寵不誤!”總裁更是寵她寵得昏天黑地、亂七八糟!赫筠深將安顏牢牢抵在了玻璃上,安顏連掙脫的可能性都沒(méi)有,衣服被撕開(kāi),白皙的肌膚暴露在了空氣之中——_。安顏聽(tīng)到伍揚(yáng)的這一句話,嚇得臉色一白,她趁著赫筠深不備,立即將他推開(kāi),..
來(lái)源:紅網(wǎng)
作者:寒錦曦
編輯:仵恩
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。