本文第一作者郭源是上海交通大學(xué)計(jì)算機(jī)系三年級(jí)本科生,研究方向?yàn)樽灾髦悄荏w和智能體安全。該工作由上海交通大學(xué)與瀾舟科技共同完成。
論文標(biāo)題:Atomic-to-CompositionalGeneralizationforMobileAgentswithANewBenchmarkandSchedulingSystem項(xiàng)目主頁(yè):https://ui-nexus.github.io/論文鏈接:https://arxiv.org/abs/2506.08972
從原子任務(wù)自動(dòng)化
到系統(tǒng)級(jí)端側(cè)智能
多模態(tài)大模型(MLLM)驅(qū)動(dòng)的OS智能體在單屏動(dòng)作落實(shí)(如ScreenSpot)、短鏈操作任務(wù)(如AndroidControl)上展現(xiàn)出突出的表現(xiàn),標(biāo)志著端側(cè)任務(wù)自動(dòng)化的初步成熟。
但是,真實(shí)世界的用戶需求常常包含復(fù)合長(zhǎng)程任務(wù),例如“比較價(jià)格并在便宜的平臺(tái)下單”任務(wù),需要在多個(gè)應(yīng)用程序中操作,收集和比較異源信息,并據(jù)此確定后續(xù)的操作步驟;“查看今日熱點(diǎn)新聞,概括并記錄”的任務(wù),需要在多個(gè)網(wǎng)頁(yè)之間導(dǎo)航,將設(shè)備操作與文本概括的通用推理能力交錯(cuò)融合,并完成適時(shí)的信息傳遞。從簡(jiǎn)單有序任務(wù)到復(fù)雜有序和復(fù)雜無(wú)序任務(wù)的過(guò)渡是從單智能體基座增強(qiáng)到AI操作系統(tǒng)的必經(jīng)之路。當(dāng)前主流的環(huán)境感知、動(dòng)作落實(shí)和短序列軌跡微調(diào)等訓(xùn)練方式顯著地提高了前述原子任務(wù)上的表現(xiàn),但是復(fù)合長(zhǎng)程任務(wù)帶來(lái)了長(zhǎng)鏈條進(jìn)度管理、信息收集和傳遞、操作與通用思考的結(jié)合等全新的挑戰(zhàn)。
研究人員針對(duì)主流的移動(dòng)端GUI智能體展開(kāi)系統(tǒng)的研究。實(shí)驗(yàn)顯示,現(xiàn)有的移動(dòng)端GUI智能體在面對(duì)復(fù)合長(zhǎng)程任務(wù)時(shí)都具有明顯的能力缺陷,展現(xiàn)出顯著的原子任務(wù)到復(fù)合任務(wù)的泛化困難。
針對(duì)這一缺口,研究人員提出:
1.動(dòng)態(tài)評(píng)測(cè)基準(zhǔn)UI-Nexus:構(gòu)建可控的動(dòng)態(tài)測(cè)評(píng)平臺(tái),覆蓋復(fù)合型、傳遞型、深度分析型等復(fù)雜長(zhǎng)程任務(wù),涵蓋50類中英文應(yīng)用(包括本地功能應(yīng)用和第三方在線應(yīng)用),共設(shè)計(jì)100個(gè)任務(wù)模板,平均最優(yōu)完成步數(shù)為14.05步。
2.多智能體任務(wù)調(diào)度系統(tǒng)AGENT-NEXUS:提出輕量化調(diào)度框架,支持指令分發(fā)、信息傳遞與進(jìn)程管理。該系統(tǒng)無(wú)需修改底層智能體模型,便于高效接入與多體協(xié)同。
該工作為復(fù)合長(zhǎng)程任務(wù)下的移動(dòng)端智能體提供了有挑戰(zhàn)性的測(cè)試基準(zhǔn)和開(kāi)發(fā)平臺(tái),也為展望未來(lái)復(fù)雜、精細(xì)的AI原生操作系統(tǒng)建立了雛形。
移動(dòng)端智能體
在復(fù)合長(zhǎng)程任務(wù)中的能力瓶頸
隨著基座模型的持續(xù)增強(qiáng)和環(huán)境感知、單屏動(dòng)作落實(shí)、靜態(tài)軌跡微調(diào)、強(qiáng)化學(xué)習(xí)等訓(xùn)練策略的優(yōu)化,基于多模態(tài)大模型的設(shè)備操控GUI智能體在單屏動(dòng)作落實(shí)(grounding)和短鏈操作任務(wù)上的測(cè)試表現(xiàn)持續(xù)提升,已經(jīng)能夠端到端地自動(dòng)化執(zhí)行網(wǎng)絡(luò)搜索等原子任務(wù)。
但是,真實(shí)場(chǎng)景中的用戶指令常常包含長(zhǎng)程場(chǎng)景與復(fù)合依賴需求。本文依據(jù)子任務(wù)的依賴關(guān)系分類,給出了常見(jiàn)的三種任務(wù)復(fù)合類型:
獨(dú)立組合型(SimpleConcatenation):若干無(wú)依賴關(guān)系的原子子任務(wù)的拼接。如圖中的睡前設(shè)定指令“Instagram開(kāi)啟消息免打擾8小時(shí),并設(shè)定明早7:00的鬧鐘”語(yǔ)境傳遞型(ContextTransition):后續(xù)子任務(wù)需要繼承并利用前序任務(wù)產(chǎn)生的中間結(jié)果或界面狀態(tài),需要把信息/上下文正確地帶到下一個(gè)App或頁(yè)面。如圖中先上網(wǎng)搜索天氣預(yù)報(bào),并根據(jù)搜索結(jié)果發(fā)送微信消息的任務(wù)。深度分析型(DeepDive):是語(yǔ)境傳遞型任務(wù)的一種特殊情況。在設(shè)備操控中不僅需要進(jìn)行動(dòng)作導(dǎo)向的推理以及信息的簡(jiǎn)單記憶,還需要融入通用推理能力對(duì)中間信息進(jìn)行深度的處理和分析。如圖中的今日HackerNews摘要任務(wù),不僅需要在瀏覽器、GoogleDoc中進(jìn)行點(diǎn)擊、滑動(dòng)等導(dǎo)航操作,還需要利用通用推理能力對(duì)當(dāng)前頁(yè)面的新聞內(nèi)容做摘要分析。
依據(jù)子任務(wù)依賴結(jié)構(gòu)的復(fù)合任務(wù)分類
研究人員在常用手機(jī)應(yīng)用上構(gòu)造代表性的測(cè)試任務(wù),針對(duì)主流的OS-Atlas,UI-TARS,Mobile-Agent系列,M3A等移動(dòng)端GUI智能體進(jìn)行初步實(shí)驗(yàn),發(fā)現(xiàn)主流智能體在復(fù)合長(zhǎng)程任務(wù)上明顯表現(xiàn)欠佳。
對(duì)錯(cuò)誤案例的細(xì)致分析顯示,主流移動(dòng)端智能體由于缺乏有效的進(jìn)度管理和信息管理機(jī)制等,展現(xiàn)出典型的失敗類型,如:
注意力渙散:直接給定復(fù)合任務(wù)指令時(shí),容易造成語(yǔ)境過(guò)載(ContextOverflow),導(dǎo)致智能體遺漏部分指令或子任務(wù);信息傳遞失?。褐悄荏w缺乏信息管理和傳遞的能力,導(dǎo)致在傳遞型任務(wù)中胡亂執(zhí)行需要前序信息的任務(wù);進(jìn)度管理混亂:在未完成的子任務(wù)之間反復(fù)跳轉(zhuǎn)。
UI-NEXUS:
針對(duì)移動(dòng)端智能體復(fù)合任務(wù)的
全面測(cè)試基準(zhǔn)
為了對(duì)移動(dòng)端智能體在復(fù)合長(zhǎng)程任務(wù)上的表現(xiàn)提供科學(xué)全面的測(cè)試基準(zhǔn)與開(kāi)發(fā)平臺(tái),研究人員提出了UI-NEXUS:一個(gè)針對(duì)移動(dòng)端智能體復(fù)合任務(wù)的交互式測(cè)試基準(zhǔn)。
UI-NEXUS測(cè)試基準(zhǔn)概覽
如概覽圖所示,UI-NEXUS基準(zhǔn)有如下的特點(diǎn):
數(shù)據(jù)覆蓋:50款A(yù)pp(20本地功能應(yīng)用+30中英在線服務(wù)應(yīng)用),5大應(yīng)用場(chǎng)景;100條指令模板,最優(yōu)路徑14.05步,難度顯著高于同類基準(zhǔn)。三類依賴結(jié)構(gòu):依據(jù)子任務(wù)的依賴關(guān)系,系統(tǒng)研究三種復(fù)合任務(wù)類型——獨(dú)立組合型(SimpleConcatenation)、語(yǔ)境傳遞型(ContextTransition)、深度分析型(DeepDive)。ANCHOR子集:為了提供可控、可擴(kuò)展的測(cè)試開(kāi)發(fā)環(huán)境,研究人員基于AndroidWorld的20個(gè)本地功能App構(gòu)建了本地離線任務(wù)子集UI-NEXUS-Anchor。該測(cè)試集中的任務(wù)環(huán)境可以通過(guò)數(shù)據(jù)庫(kù)、文件系統(tǒng)、adb工具精準(zhǔn)設(shè)定,支持任務(wù)指令可擴(kuò)展性和測(cè)試環(huán)境可控性。細(xì)粒度指標(biāo):記錄端到端任務(wù)成功率、終止原因、Token成本與推理時(shí)延,對(duì)智能體的表現(xiàn)進(jìn)行細(xì)粒度分析。
研究人員選取了5種代表性的移動(dòng)端智能體基線進(jìn)行測(cè)試,這5種智能體都基于GUI操作進(jìn)行移動(dòng)端操作任務(wù)的自動(dòng)化,具體實(shí)現(xiàn)模式包括:
1.單模型微調(diào)(Agent-as-a-Model):OS-Atlas-7B-Pro和UI-TARS-7B-SFT都是基于Qwen2-VL-7B進(jìn)行大量GUI領(lǐng)域訓(xùn)練得到的智能體基座,可以通過(guò)單模型推理逐步執(zhí)行手機(jī)操作任務(wù)。
2.工作流搭建(AgenticWorkflow):通常利用GPT-4o等閉源模型輔以模塊化設(shè)計(jì)來(lái)構(gòu)建智能體工作流。如M3A是AndroidWorld中提出的手機(jī)智能體,每步推理時(shí)利用a11ytree提取出元素列表作為輔助輸入,并使用React和Reflexion來(lái)進(jìn)行動(dòng)作推理和結(jié)果反思。Mobile-Agent-V2和Mobile-Agent-E采取多智能體協(xié)作的模式,并輔以O(shè)CR和元素標(biāo)記等模塊,進(jìn)行手機(jī)任務(wù)自動(dòng)化。
除了上述基線以外,本文還提出了Agent-NEXUS:針對(duì)復(fù)合設(shè)備操作任務(wù)的調(diào)度系統(tǒng)。Agent-NEXUS將高階調(diào)度與低階執(zhí)行解耦,通過(guò)SchedulingModule,ExecutionModule和ProcessMemory的協(xié)同工作完成復(fù)合長(zhǎng)程任務(wù)的調(diào)度。
在每個(gè)子任務(wù)完成后,調(diào)度模塊根據(jù)歷史進(jìn)程信息和當(dāng)前環(huán)境感知更新高階任務(wù)規(guī)劃,并將后續(xù)的第一個(gè)子目標(biāo)傳給執(zhí)行模塊的Navigator/Analyst/Tool進(jìn)行具體落實(shí)。這樣的層次化調(diào)度模式讓低階執(zhí)行模塊每次都收到意圖明確的原子任務(wù),減輕了語(yǔ)境過(guò)載的風(fēng)險(xiǎn)。
Agent-NEXU架構(gòu)示意圖
Agent-NEXUS支持智能體的可插拔接入。在本實(shí)驗(yàn)中,研究人員嘗試了用UI-TARS-7B-SFT和M3A作為低階執(zhí)行模塊的智能體。
實(shí)驗(yàn)分析:
從原子到復(fù)合任務(wù)的泛化之路
研究人員在本地功能應(yīng)用(UI-NEXUS-Anchor)、中文在線服務(wù)應(yīng)用、英文在線服務(wù)應(yīng)用三個(gè)測(cè)試子集,共100個(gè)指令模板上進(jìn)行了測(cè)試,主要結(jié)論有:
UI-NEXUS測(cè)試基準(zhǔn)對(duì)各個(gè)移動(dòng)端GUI智能體baseline都造成很大挑戰(zhàn),各智能體的任務(wù)完成率均低于50%;基于AgenticWorkflow實(shí)現(xiàn)的智能體在復(fù)合長(zhǎng)程任務(wù)上的魯棒性顯著優(yōu)于基于Agent-as-a-Model的方法,但是基于GPT-4o的工作流帶來(lái)很高的推理成本和時(shí)延,限制了實(shí)際場(chǎng)景的應(yīng)用潛力;AGENT-NEXUS顯著提升任務(wù)完成率(+24%~+40%),同時(shí)僅帶來(lái)約8%的推理開(kāi)銷增長(zhǎng)。
主要實(shí)驗(yàn)結(jié)果
為了深入分析原子到復(fù)合泛化的表現(xiàn),研究人員選取部分獨(dú)立組合型和語(yǔ)境傳遞型任務(wù)進(jìn)行了進(jìn)一步的分析實(shí)驗(yàn)。研究人員對(duì)比了三種任務(wù)成功率
1.直接將復(fù)合指令給定智能體,測(cè)試智能體的任務(wù)完成率,作為原子-復(fù)合泛化中的WeakPerformance。
2.人為將復(fù)合指令拆分成多個(gè)原子指令(如將"IntheTasksapp,createandsaveanewtasknamed'Exercise'repeatingeveryday.ThenopentheBroccolirecipeappanddeletethe'FrenchFries'recipe."拆分成"IntheTasksapp,createandsaveanewtasknamed'Exercise'repeatingeveryday."和"OpentheBroccolirecipeappanddeletethe'FrenchFries'recipe."兩個(gè)原子指令,分別交付智能體執(zhí)行,均成功則視為該任務(wù)成功,測(cè)定任務(wù)完成率,作為原子-復(fù)合泛化中的理論上的StrongCeiling。
3.將UI-TARS-7B-SFT和M3A接入Agent-NEXUS調(diào)度系統(tǒng)后的任務(wù)完成率。
結(jié)果如下圖所示:
所有移動(dòng)端智能體baseline在給定手動(dòng)拆分后的原子指令時(shí)表現(xiàn)都顯著更優(yōu),其中UI-TARS的差異尤其顯著,從11%直接提升到了60%。這是由于其在微調(diào)后已經(jīng)訓(xùn)練了充分的GUI操作能力,而直接給定復(fù)合指令時(shí)的極低完成率主要受制于進(jìn)度管理和信息管理功能的缺失。
Agent-NEXUS調(diào)度框架有效地彌補(bǔ)了原子到復(fù)合任務(wù)的泛化損失,在成本提升可控的同時(shí)讓任務(wù)完成率大幅提升,逼近了strongceiling的表現(xiàn)。
此外,針對(duì)不同智能體構(gòu)建方案的進(jìn)一步討論和分析顯示:
1.在線服務(wù)類App因信息動(dòng)態(tài)性強(qiáng)、UI結(jié)構(gòu)復(fù)雜及環(huán)境干擾頻繁,構(gòu)成了更大的挑戰(zhàn);
2.基于GPT-4o搭建的AgenticWorkflow由于具有多智能體協(xié)作,復(fù)雜推理等機(jī)制,在復(fù)合任務(wù)上的表現(xiàn)顯著更優(yōu)。但是,GPT-4o在GUI操作任務(wù)上的原生領(lǐng)域能力比較有限,需要借助元素列表、屏幕解析工具等輔助,加之本身調(diào)用成本較高,限制了實(shí)際應(yīng)用的可行性。
相比之下,基于開(kāi)源規(guī)模領(lǐng)域微調(diào)的Agent-as-a-Model在短鏈操作內(nèi)部邏輯、動(dòng)作落實(shí)、推理速度等方面有顯著優(yōu)勢(shì),但由于訓(xùn)練方式的限制,當(dāng)面對(duì)選擇等復(fù)合邏輯、動(dòng)作和通用推理交錯(cuò)等任務(wù)需求時(shí)完全無(wú)法應(yīng)對(duì),容易出現(xiàn)盲目執(zhí)行的現(xiàn)象,需要借助系統(tǒng)級(jí)的設(shè)計(jì)來(lái)增強(qiáng)。
3.Memory機(jī)制的設(shè)計(jì)在處理復(fù)合長(zhǎng)程任務(wù)中至關(guān)重要。當(dāng)前移動(dòng)端智能體的Memory機(jī)制主要包含無(wú)記憶(如OS-Atlas-Pro,只根據(jù)動(dòng)作歷史和當(dāng)前屏幕預(yù)測(cè)下一步動(dòng)作,沒(méi)有儲(chǔ)存歷史信息的機(jī)制)、部分記憶(如UI-TARS,每次輸入前N張屏幕觀察,一定程度上可以利用前N張屏幕中的有利信息,但是在多源、跨越較大的信息傳遞和整合中收到較大限制)、主動(dòng)記憶(如Mobile-Agent-V2和Mobile-Agent-E每一步都會(huì)主動(dòng)判斷當(dāng)前是否有信息要存儲(chǔ)到記憶模塊)。
主動(dòng)記憶在復(fù)雜信息依賴的復(fù)合長(zhǎng)程任務(wù)中帶來(lái)更優(yōu)的表現(xiàn),但是每一步都判斷是否記憶帶來(lái)較大的計(jì)算冗余。Agent-NEXUS通過(guò)將界面導(dǎo)航。信息收集、信息處理都顯式在高階調(diào)度中分配好次序,在開(kāi)銷可控的同時(shí)實(shí)現(xiàn)了多源信息的管理和整合。
未來(lái)展望:
面向新一代AI操作系統(tǒng)
本文不僅全面、深入地探討了當(dāng)下移動(dòng)端智能體研究中迫切需要深入發(fā)掘的一個(gè)方面:復(fù)合長(zhǎng)程任務(wù),也暢想了新一代AI操作系統(tǒng)的雛形。
在未來(lái),我們不僅需要能依據(jù)一個(gè)指令為人類自動(dòng)化完成簡(jiǎn)單操作的智能體模型,更希望構(gòu)建能夠高效協(xié)調(diào)、處理、調(diào)度復(fù)合任務(wù)需求的系統(tǒng)級(jí)端側(cè)智能。我們相信,當(dāng)這樣的評(píng)測(cè)基準(zhǔn)與調(diào)度框架被廣泛采用并不斷演進(jìn),移動(dòng)設(shè)備將真正蛻變?yōu)榫邆漕惒僮飨到y(tǒng)層次智能的個(gè)人助手,為人機(jī)協(xié)作打開(kāi)新的想象空間。
5本網(wǎng)游言情文,世界上最幸福的事,就是做錯(cuò)了,有后悔的機(jī)會(huì)
幾部好看的網(wǎng)游言情小說(shuō),看男女主怎么在游戲中各種撩,好看哦
網(wǎng)游題材言情小說(shuō)強(qiáng)推:游戲里嫁個(gè)大神好乘涼?