藺雅達
第一作者孫秋實是香港大學計算與數(shù)據(jù)科學學院博士生,碩士畢業(yè)于新加坡國立大學數(shù)據(jù)科學系。主要研究方向為Computer-usingagents和Codeintelligence,在NLP和ML頂會ACL,EMNLP,ICLR,COLM等發(fā)表多篇論文。本文的OS-Copilot團隊此前已發(fā)布了OS-Atlas、OS-Genesis和SeeClick等同系列電腦智能體研究成果,被廣泛應用于學術界與產(chǎn)業(yè)實踐中。
用于輔助科學研究的大模型智能體,正在悄然發(fā)生變化
1背景與動機
過去幾年,隨著LLMs和VLMs的飛速進步,我們見證了AI在自然語言處理、編程、圖像理解等領域的廣泛應用。而在科學研究這一關乎人類知識積累的關鍵場域,基于這些強大模型的智能體正悄然成為科研工作流的“新型合作者”。
在早期,AI在科學中的角色往往是“分析器”——幫助分析數(shù)據(jù)、撰寫文獻、生成圖表。但隨著電腦智能體(Computer-UsingAgents,也稱CUA)的出現(xiàn),這一角色正在發(fā)生根本性轉變。相比于傳統(tǒng)的語言模型助手,這類智能體能夠像人類一樣操作計算機,通過圖形界面點擊、拖拽、輸入命令,或是編寫程序完成計算任務,完成對真實科研軟件的自動化控制。這意味著,它們不再只是回答問題,而是在主動與你一起完成科學任務,成為具備“執(zhí)行能力”的AI合作者。
1-1從語言理解走向科研執(zhí)行:全新的挑戰(zhàn)
在復雜的科研場景中,軟件工具的多樣性、任務流程的長周期、跨模態(tài)信息的交錯,令“用AI真正完成一項科研任務”遠比解答一個科學問題要困難得多。例如,模擬蛋白質結構需要調用生物建模軟件,查看星體軌跡要熟練操作天文模擬器,甚至還需要自動將結果整理進LaTeX文檔。實現(xiàn)這樣的能力,需要智能體具備:
軟件操作能力:能夠使用圖形界面(GUI)與命令行(CLI)控制復雜科學工具;
領域理解能力:理解任務背后的科學概念與背景知識;
跨模態(tài)感知與規(guī)劃:在圖形界面、終端指令、科學數(shù)據(jù)之間進行有效推理和行動。
然而,現(xiàn)有的多模態(tài)智能體系統(tǒng)大多在網(wǎng)頁、電商、編程等通用任務上取得了一定進展,在科學領域卻還在蹣跚學步。一個很重要的原因在于:缺乏一個真實、系統(tǒng)化的科研環(huán)境與評估基準,來推動agent從“會說會寫會敲代碼”走向“會做”。
1-2科研任務中的空白:環(huán)境與評測的雙重缺失
盡管社區(qū)已提出多項CUA智能體評測(如WebArena、OSWorld等),但這些工作大多集中在日常場景和通用軟件上,其復雜性遠未觸及真實科研工作。而以ScienceQA和SciCode為代表的科學評測人任務,其任務方式依然停留在QA和靜態(tài)的代碼編寫上。在真實的科學探索過程中,軟件工具往往具有非標準I/O流、復雜界面邏輯、需要先配置再執(zhí)行、多步操作才能完成目標——這對智能體提出了前所未有的挑戰(zhàn)。因此,我們需要(1)一個可靠的環(huán)境讓Agent可以進行自主探索以及(2)一個多模態(tài)多領域的評測基準,來了解科學任務的自動化可以被完成到何種程度
在這樣的背景下,我們提出了ScienceBoard:首個面向科學任務、真實交互、自動評估的多模態(tài)智能體評測環(huán)境,目標是從根本上推動“會自動完成科學工作流的AI”的研究進展。
論文題目:
ScienceBoard:EvaluatingMultimodalAutonomousAgentsinRealisticScientificWorkflows
項目地址:
https://qiushisun.github.io/ScienceBoard-Home/
研究機構:香港大學,上海人工智能實驗室,復旦大學,北京大學,耶魯大學
2ScienceBoard基建:科研任務的可交互操作環(huán)境
2-1多領域科研軟件集成
ScienceBoard基于Ubuntu虛擬機搭建,內置了多個開源科研軟件,并對其進行了系統(tǒng)性的重構和改造,確保每個任務都能通過CLI/GUI雙通道進行交互。整個系統(tǒng)具備以下特點:
多領域科研軟件集成:作為一個可擴展的環(huán)境,ScienceBoard默認集成了6個科學領域的軟件,包括生物化學,天文模擬,地理信息系統(tǒng)等。
雙模態(tài)操作接口:每個軟件均支持GUI和CLI控制,支持屏幕截圖(Screenshots)、可訪問性樹(a11ytree)和Set-of-Marks等多模態(tài)輸入,允許agent靈活選擇交互方式。
自動初始化機制:每個工作場景都配備初始化腳本、配置文件、輔助數(shù)據(jù),確保agent可以從相同起點開始實驗,保證評測可復現(xiàn)性。
可靠的自動評估機制:作者們編寫了一整套可擴展的任務評估函數(shù),支持數(shù)值匹配、范圍區(qū)間、狀態(tài)對比等方式,對復雜科學操作實現(xiàn)執(zhí)行級評估(execution-basedevaluation)。
2-2動作空間
為了讓agent能在不同任務中使用統(tǒng)一接口與動作表示,ScienceBoard在先前CUA/CodingAgents工作的基礎上進行了擴展,為Agents定義了一個通用動作空間,涵蓋以下幾類操作:
GUI操作動作:如CLICK[x,y]、SCROLL[Δy]、TYPE[“text”]等模擬人類操作
CLI命令執(zhí)行:在終端/軟件內部輸入代碼指令并獲取反饋
其它類型調用:
ocall_api:訪問外部API拓展agent能力
oanswer[“...”]:用于任務型QA作答
流程控制動作:如DONE,FAIL等用于表明交互終止
這樣的設計使得通過LLM/VLM構建的不同agent在ScienceBoard環(huán)境中都能通過結構化API實現(xiàn)通用交互能力,真正具備“跨軟件、跨模態(tài)”的通用執(zhí)行接口。
3ScienceBoard評測集:高質量科研任務數(shù)據(jù)集
基于上述的多模態(tài)科學探索環(huán)境基建,ScienceBoard構建了一個系統(tǒng)化、具挑戰(zhàn)性的科研任務集合,作為評估AI智能體科學能力的標準基準。該基準不僅覆蓋多種科研軟件,還充分考慮任務多樣性、復雜度和可執(zhí)行性,目標是推動智能體從“看得懂”走向“做得對”。
3-1科學探索問題的構建
要評估一個智能體是否真正具備完成科學任務的能力,關鍵不僅在于環(huán)境,更在于任務本身是否足夠真實、足夠復雜、足夠可衡量。為此,ScienceBoard采用了人工設計+程序驗證的混合標注流程:由學習過相關領域知識的人員基于真實軟件手冊構思任務目標,通過多輪交叉驗證確保指令清晰、操作合理,再配套自動初始化腳本與程序化評估函數(shù),最終構成一個高度標準化、可復現(xiàn)、可自動評估的科研任務集合。
3-2多維評測基準
ScienceBoard的當前版本共收錄169個真實科研任務,橫跨6個領域(及其對應配套的軟件),任務類型涵蓋:基礎軟件與環(huán)境設置,科學模擬與計算,圖形繪制與空間可視化,數(shù)據(jù)查詢與結果解釋,科研文檔撰寫與整合,跨軟件復合工作流等等
為系統(tǒng)性考察智能體的不同層級能力,任務被劃分為四類難度:
Easy(~54%):執(zhí)行單步配置、簡單計算和編程、操作界面
Medium(~28%):涉及多步指令、邏輯推理或跨模態(tài)狀態(tài)跟蹤與記憶
Hard(~17%):需完成Long-horizon規(guī)劃、精細的GUI定位、多程序協(xié)作等
OpenProblems:當前SOTA模型仍不可能完成的開放探索挑戰(zhàn)性任務
4實驗與評估
我們在ScienceBoard評測基準上評估了當前代表性的(1)商業(yè)模型(2)開源模型(3)GUI基座模型所構建的智能體的表現(xiàn),結果揭示:即便是當今最強的多模態(tài)大模型,在真實科研工作流中也遠未成熟。
4-1主要實驗
在整體任務成功率上:
1.GPT-4o和Claude3.5等商業(yè)大模型雖領先于開源模型,但平均成功率也僅為15%左右;
2.開源的InternVL3和Qwen2.5-VL在部分任務上有超越商業(yè)模型的表現(xiàn),但跨領域表現(xiàn)仍不穩(wěn)定;
專門設計的GUIActionModels如OS-ATLAS、UGround等,雖然對接系統(tǒng)更輕量,卻在長任務、跨模態(tài)任務上明顯受限。
可以從實驗中看出:完成科學工作流的門檻遠高于Webbrowsing任務或移動/桌面端應用的交互。模型需要在視覺、結構化數(shù)據(jù)、復雜指令之間基于領域知識多輪推理、長程規(guī)劃。
更重要的是,我們在實驗中發(fā)現(xiàn):許多失敗并非源于模型知識不足,而是執(zhí)行策略不當。例如,模型可能正確理解了“導出蛋白質結構圖”,卻因點擊順序錯誤而未能完成任務。
4-2拆解規(guī)劃與動作
進一步的分析實驗還揭示了一個耐人尋味的趨勢:許多失敗的智能體其實“知道要做什么”,卻“做不好”。以GPT-4o為代表的模型,在任務規(guī)劃上展現(xiàn)了強大的理解能力,但在面對真實界面時,常因點擊不準(e.g.,無法點中正確的星球)、路徑偏差而執(zhí)行失敗。這表明:當前模型在“想清楚”與“做準確”之間仍存在斷層。
為進一步驗證這一現(xiàn)象,我們嘗試將規(guī)劃(Planning)與執(zhí)行(Action)解耦,構建模塊化智能體系統(tǒng):由GPT-4o負責生成高階計劃,再由各類開源VLM或GUIActionModel執(zhí)行具體操作。
實驗結果顯示:這種模塊化設計顯著提升了成功率,尤其在界面復雜、操作鏈條長的科研軟件任務中,能夠更穩(wěn)健地完成目標。
5展望
ScienceBoard的實驗表明,當前智能體的瓶頸不僅在操作層,更在于領域知識與通用agent能力的割裂。許多模型可以正確地執(zhí)行點擊或輸入命令,但缺乏對科學任務背后知識的理解。因此,未來的關鍵方向在于:讓智能體真正“理解科學”。這或許包括利用Manual與Tutorial等資源進行“任務相關學習”,或構建可根據(jù)上下文調用外部知識的系統(tǒng),
另一個值得關注的方向是智能體系統(tǒng)。我們的實驗顯示,即使是簡單的“分工合作”策略(如GPT-4o負責計劃、其他模型負責執(zhí)行)也能帶來顯著收益。這為未來的“科研AI團隊”奠定了雛形:一個系統(tǒng)可能由具備強邏輯推理能力的planner、擅長執(zhí)行的GUI模型、掌握專業(yè)知識的領域專家模型組成。它們可按需組合,靈活適配科研生命周期中的不同階段,從數(shù)據(jù)分析、圖表生成到論文潤色,真正成為“可編排、可插拔”的科研伙伴。
更長遠地看,ScienceBoard提出的框架也為實驗室層面的智能化探索打下了基礎。從虛擬科研助手,到物理實驗機器人,從Coding/QA模型到實驗助手,AI科學家的未來,不再只是數(shù)字世界里的概念,而是正在緩慢走向現(xiàn)實。
6結束語
作為首個聚焦科學探索任務的多模態(tài)智能體評測框架。ScienceBoard提供了一個真實可交互的科研環(huán)境,精心設計了具有代表性的科研任務,并配套程序化評估機制,系統(tǒng)性評估現(xiàn)有模型在科學任務上的表現(xiàn)。實驗發(fā)現(xiàn),即便是當前最強的通用模型,在復雜科研工作流中的成功率仍顯著低于人類,盡管智能體自動化科學探索仍是一個長期目標,但本工作提供了一個可復現(xiàn)、可衡量、可擴展的起點,也為通向全自動化AI科學家之路點亮了第一盞燈。
來源:紅網(wǎng)
作者:閩元芹
編輯:周文婷
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉載請附原文出處鏈接和本聲明。