楊琪瑤
WebAgent續(xù)作《WebShaper:AgenticallyDataSynthesizingviaInformation-SeekingFormalization》中,作者們首次提出了對information-seeking(IS)任務(wù)的形式化建模并基于該建模設(shè)計(jì)了IS任務(wù)訓(xùn)練數(shù)據(jù)合成方法,并用全開源模型方案取得了GAIA評測最高60.1分的SOTA表現(xiàn)
WebShaper補(bǔ)足了做GAIA、Browsecomp上缺少高質(zhì)量訓(xùn)練數(shù)據(jù)的問題,通義實(shí)驗(yàn)室開源了高質(zhì)量QA數(shù)據(jù)!
WebShaper體現(xiàn)了通義實(shí)驗(yàn)室對IS任務(wù)的認(rèn)知從前期的啟發(fā)式理解到形式化定義的深化。
GitHub鏈接:https://github.com/Alibaba-NLP/WebAgenthuggingface鏈接:https://huggingface.co/datasets/Alibaba-NLP/WebShapermodelscope鏈接:https://modelscope.cn/datasets/iic/WebShaper
圖表1:WebShaper在GAIA上取得開源方案SOTA。
WebShaper——合成數(shù)據(jù)范式的轉(zhuǎn)變
在大模型時(shí)代,「信息檢索(InformationSeeking,IS)」早已不是簡單的「搜索+回答」那么簡單,而是AI智能體(Agent)能力的重要基石。無論是OpenAI的DeepResearch、Google的Gemini,還是國內(nèi)的Doubao、Kimi,它們都把「能不能上網(wǎng)找信息」當(dāng)作核心競爭力。
系統(tǒng)性地構(gòu)造高質(zhì)量的信息檢索訓(xùn)練數(shù)據(jù)成為激發(fā)智能體信息檢索能力的關(guān)鍵,同時(shí)也是瓶頸。當(dāng)前主流方法依賴「信息驅(qū)動」的合成范式——先通過網(wǎng)絡(luò)檢索構(gòu)建知識圖譜,再由大模型生成問答對(如WebDancer、WebWalker等方案)。這種模式存在兩大缺陷:知識結(jié)構(gòu)與推理邏輯的不一致性,以及預(yù)檢索內(nèi)容的局限導(dǎo)致的任務(wù)類型、激發(fā)能力和知識覆蓋有限。
圖表2:WebShaper從「信息驅(qū)動」到「形式化驅(qū)動」的范式轉(zhuǎn)變。
WebShaper系統(tǒng)開創(chuàng)性提出「形式化驅(qū)動」新范式,通過數(shù)學(xué)建模IS任務(wù),并基于該形式化,檢索信息,合成訓(xùn)練數(shù)據(jù)。形式化驅(qū)動的優(yōu)點(diǎn)包括:
1.全域任務(wù)覆蓋:基于形式化框架的系統(tǒng)探索,突破預(yù)檢索數(shù)據(jù)邊界,實(shí)現(xiàn)覆蓋更廣任務(wù)、能力、知識的數(shù)據(jù)生成。
2.精準(zhǔn)結(jié)構(gòu)控制:通過形式化建模,可精確調(diào)控推理復(fù)雜度與邏輯結(jié)構(gòu)。
3.結(jié)構(gòu)語義對齊:任務(wù)形式化使信息結(jié)構(gòu)和推理結(jié)構(gòu)一致,減少數(shù)據(jù)合成中產(chǎn)生的錯(cuò)誤。
InformationSeeking形式化建模
圖表3:形式化建模
WebShaper首先提出基于集合論的IS任務(wù)形式化模型。
該模型包含核心概念「知識投影(KnowledgeProjection)」,他是一個(gè)包含實(shí)體的集合:
每個(gè)IS任務(wù)都由KP的R-并集(R-Union)、交集(Intersection)、遞歸操作構(gòu)成,能夠精準(zhǔn)控制推理路徑和任務(wù)復(fù)雜度;每個(gè)IS任務(wù)旨在確定一個(gè)復(fù)雜的由KP組合而成的目標(biāo)集合T中包含的實(shí)體。
該形式化建模讓W(xué)ebShaper不再依賴自然語言理解的歧義,而是可控、可解釋、可擴(kuò)展的數(shù)據(jù)合成方案。
智能體式擴(kuò)展合成:讓Agent自己「寫題」
為了與形式化建模保持一致,WebShaper整個(gè)流程開始于預(yù)先構(gòu)建且形式化的基礎(chǔ)種子任務(wù),然后在形式化的驅(qū)動下,將種子問題多步擴(kuò)展為最終的合成數(shù)據(jù)。此過程采用專用的代理擴(kuò)展器(Expander)模塊,旨在通過關(guān)鍵過程(KP)表征來解釋任務(wù)需求。在每個(gè)擴(kuò)展階段,系統(tǒng)都會實(shí)現(xiàn)逐層擴(kuò)展機(jī)制,以最小化冗余,同時(shí)通過控制復(fù)雜度進(jìn)程來防止推理捷徑。
種子任務(wù)構(gòu)建
為了構(gòu)建種子任務(wù),作者下載了全部WikiPedia,并在詞條中隨機(jī)游走檢索信息,合成基礎(chǔ)的種子IS任務(wù)。
KP表示
IS任務(wù)形式化模型是復(fù)雜度的,其中包含大量的交、R-并和遞歸操作。為了在Expander中表示和使用該模型,作者提出了一種KP表示。其中通過引入「變量」和「常量」,以及R-并的可交換性質(zhì),表示了IS形式化模型。
如,將如下的問題:
「Whichplayerofateaminthe2004-05season,whowasbornin90s?Thisteamisfoundedin1966andisanEastGermanfootballteam.」
表示為:
圖表4:形式化表示。
逐層擴(kuò)展結(jié)構(gòu)
數(shù)據(jù)擴(kuò)展的策略是數(shù)據(jù)合成的關(guān)鍵。之前的方法在我們的形式化模型中將得到下圖中的RandomStructure和SequentialStructure:
圖表5:擴(kuò)展策略對比。
這樣的結(jié)構(gòu)存在兩個(gè)問題:
冗余性:如上圖中的RandomStructure所示,存在一些已知常量與其他已知常量相聯(lián)系。在這種情況下,諸如「柏林迪納摩是一家位于柏林的足球俱樂部」這樣的句子會存在于問題中。然而,這并沒有增加任務(wù)解決的推理鏈。推理捷徑:如上圖中的SequentialStructure所示,存在一個(gè)將常量直接連接到目標(biāo)的推理鏈條。如果發(fā)生這種情況,模型可能會通過僅推理較近的常量而忽略較深的序列來猜測答案。
為此,作者提出如上圖所示的逐層結(jié)構(gòu),每次擴(kuò)展都選擇葉結(jié)點(diǎn)常量進(jìn)行擴(kuò)展,有效地解決了上述的兩個(gè)問題。
擴(kuò)展智能體
具體擴(kuò)展是由Expander智能體負(fù)責(zé)執(zhí)行,他接受當(dāng)前問題的形式化表示:
根據(jù)圖結(jié)構(gòu)層次遍歷找到可擴(kuò)展常量節(jié)點(diǎn);調(diào)用搜索、網(wǎng)頁摘要、驗(yàn)證等工具;自動生成形式化任務(wù)、并進(jìn)行答案驗(yàn)證和復(fù)雜度過濾。
這一步,使得我們不僅能構(gòu)建覆蓋度廣的任務(wù),更能確保任務(wù)正確性和推理鏈條的嚴(yán)謹(jǐn)性,大幅減少錯(cuò)誤傳播。
Agent訓(xùn)練
基于形式化生成的高質(zhì)量任務(wù)和完整的行為軌跡,作者使用監(jiān)督微調(diào)(SFT)+GRPO強(qiáng)化學(xué)習(xí)策略來訓(xùn)練Agent。WebShaper最終得到5k的訓(xùn)練軌跡。
訓(xùn)練后,模型在GAIA基準(zhǔn)任務(wù)中獲得:
60.1分,超越所有開源方案閉源模型GPT4.1只有40.7分、ClaudeSonnet458.2分、O4mini66.99
我們在全使用開源模型方案下拉近了用最強(qiáng)閉源模型o4mini的差距,大幅領(lǐng)先第二名的開源方案。
圖表6:與最新基線方法的對比。
進(jìn)一步分析
論文中,作者還進(jìn)一步分析了數(shù)據(jù)和訓(xùn)練模型,發(fā)現(xiàn):
1.WebShaper數(shù)據(jù)領(lǐng)域覆蓋充分。
2.在WebShaper數(shù)據(jù)上,通過RL訓(xùn)練能大幅激發(fā)模型的IS能力。
3.消融實(shí)驗(yàn)驗(yàn)證了形式化建模和逐層擴(kuò)展策略的有效性。
4.求解WebShaper任務(wù),相比于基線數(shù)據(jù)要求更多的智能體action。
為什么這件事重要?
任務(wù)形式化=WebShaper是基于形式化任務(wù)合成數(shù)據(jù)的開端。該思想可以擴(kuò)展于相比IS更為復(fù)雜的任務(wù)。數(shù)據(jù)質(zhì)量=Agent能力上限。好的智能體,先要有好的訓(xùn)練任務(wù)。Agentic數(shù)據(jù)合成=智能體數(shù)據(jù)構(gòu)建需要結(jié)合推理和信息檢索,使用agent合成數(shù)據(jù)可以大幅減少中間過程開銷和誤差傳遞開源共享=社區(qū)生態(tài)繁榮。我們相信,用最開放的方式推動最前沿的研究,是AI發(fā)展的正路。
用開源數(shù)據(jù)+模型做到GAIA60分,你也可以。
現(xiàn)在就來試試:https://github.com/Alibaba-NLP/WebAgent
《墨少的重生甜妻》重返18歲,她果斷投入前世癡情軍官的懷抱中……
第一本:《墨少的重生甜妻》簡介:【《墨少的重生甜妻》重返18歲,她果斷嫁前世為她禁欲一生的軍戰(zhàn)狼】上輩子她一直都在誤會他,可當(dāng)他為她擋子彈死了,她守著空蕩蕩的房間,才知道她的心早已被那個(gè)男人在不知不覺間偷走了?! ≈鼗钜皇?,要報(bào)仇虐渣?不不不,最當(dāng)然是拿下某男啦!精彩內(nèi)容:“二叔,..
現(xiàn)言重生文,力薦《墨少的重生甜妻》甜到掉牙,書荒必備!
入坑指南:這老一輩的人做吃的就是講究,快節(jié)奏的生活把很多情調(diào)都消磨了。看林雙絳吃完,張奶奶把碗放到一邊。“大雙啊,頭上還疼不|_?!笨粗先藨z愛的目光,她頓時(shí)眼睛里有些酸澀,也明白了張奶奶的心意__?!安惶哿耍 崩先嗣嗣念^,“好姑娘,別和你父親生氣,你爸爸做事太沖動,但也是為了你好,怕你到此結(jié)束了?。
言情小說《墨少的重生甜妻》為什么大家看了都忍不住點(diǎn)贊作者
第一本:《墨少的重生甜妻》內(nèi)容主線:《墨少的重生甜妻》一覺醒來,她成了18線女星,身邊還有個(gè)小包子精彩片段:他知道有時(shí)候越是傷心,眼淚越是流不出來——-。掩飾掉心底的苦澀,開口說道:“顏顏,你……別再這樣作踐自己了好嗎?如果他看見你這副模樣,會心疼的。別讓他走的不安心,好嗎?”或許是男人的話等會說_-。
來源:紅網(wǎng)
作者:丑紫易
編輯:漫馳麗
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。