陳俊幸
henry發(fā)自凹非寺量子位|公眾號QbitAI
一個(gè)不起眼的迷宮導(dǎo)航任務(wù),卻能讓一眾模型“原形畢露”。
Diffuser和DiffusionForcing雙雙翻車,通關(guān)率低得可憐。
唯獨(dú)有一個(gè)模型,通關(guān)率高達(dá)100%。
而它就來自圖靈獎(jiǎng)得主YoshuaBengio與其團(tuán)隊(duì)提出的全新方法:蒙特卡洛樹擴(kuò)散(MonteCarloTreeDiffusion,MCTD)
這個(gè)方法將“上古時(shí)代”的蒙特卡洛樹搜索,和當(dāng)下熱門的擴(kuò)散模型結(jié)合在一起,突破了擴(kuò)散模型在長程任務(wù)推理階段缺乏可擴(kuò)展性的瓶頸,并成功入選ICML2025的Spotlight。
MakeMCTSGreatAgain?
如何在探索(Explore)未知可能性以尋找更優(yōu)解和利用(Exploit)當(dāng)前已知最佳方案之間取得平衡,一直是復(fù)雜決策和長程規(guī)劃任務(wù)的核心挑戰(zhàn)之一。
一個(gè)過于強(qiáng)調(diào)探索的系統(tǒng)可能效率低下,在大量平庸選項(xiàng)中徘徊;而一個(gè)過于強(qiáng)調(diào)利用的系統(tǒng)則可能過早收斂到局部最優(yōu),錯(cuò)過全局最佳解。
對于擴(kuò)散模型來說,它雖然能夠通過去噪過程實(shí)現(xiàn)高質(zhì)量、全局一致的序列生成(對數(shù)據(jù)分布的“利用”),但缺乏在不確定性下主動(dòng)探索不同未來路徑的能力。
而MCTS恰恰具備通過樹形搜索結(jié)構(gòu)進(jìn)行高效探索和局部優(yōu)化的能力,因而能夠系統(tǒng)地權(quán)衡探索與利用,并在多個(gè)決策點(diǎn)進(jìn)行智能選擇。
由此,MCTD將擴(kuò)散模型的全局一致性生成優(yōu)勢與MCTS的局部探索決策能力相結(jié)合。通過將軌跡劃分為多個(gè)子規(guī)劃來作為MCTS節(jié)點(diǎn),并對不同子規(guī)劃實(shí)施差異化的去噪調(diào)度,實(shí)現(xiàn)了在長程規(guī)劃中探索與利用的平衡,提高了規(guī)劃的效率和質(zhì)量。
通過MCTS實(shí)現(xiàn)異步控制
在傳統(tǒng)的擴(kuò)散模型中,尤其是在生成軌跡時(shí),模型通常將整條軌跡視為一個(gè)整體進(jìn)行去噪,并用N來表示n個(gè)時(shí)間步的狀態(tài)。
與之相反,MCTD并不把整個(gè)N個(gè)時(shí)間步的軌跡作為一個(gè)整體去噪,而是將它劃分為S個(gè)時(shí)間段。在論文中,MCTD則先將完整軌跡X劃分5個(gè)沒有重疊的子軌跡。
例如,如果N=500,S=5,那么一個(gè)可能的劃分是:
這些子規(guī)劃在每個(gè)時(shí)間段(如1-100)是獨(dú)立的,它們之間沒有共享的時(shí)間步。
由此,每個(gè)子規(guī)劃的結(jié)束可以看作是完整軌跡的一個(gè)切片。當(dāng)模型對一個(gè)特定的子規(guī)劃進(jìn)行去噪時(shí),這段子規(guī)劃內(nèi)部的所有時(shí)間步都會同時(shí)參與到去噪過程中,遵循針對該子規(guī)劃設(shè)定的統(tǒng)一的去噪調(diào)度。
而在不同的子規(guī)劃之間,MCTS決定了不同子規(guī)劃的去噪進(jìn)度和深度,并通過其四個(gè)階段表現(xiàn)出來。
Selection:從已有的MCTS中,使用UCB(UpperConfidenceBound,在樹中選擇最有前景的節(jié)點(diǎn))策略選擇一個(gè)表示部分去噪軌跡片段(即子規(guī)劃)的節(jié)點(diǎn)。Expansion:從選定的子規(guī)劃節(jié)點(diǎn)的末端狀態(tài)出發(fā),根據(jù)不同的動(dòng)作或決策,生成一個(gè)或多個(gè)新的子規(guī)劃節(jié)點(diǎn)。這些新節(jié)點(diǎn)代表了從當(dāng)前狀態(tài)開始的下一段未探索的軌跡片段。同時(shí),為了進(jìn)行更智能的規(guī)劃,MCTS還通過元?jiǎng)幼饕龑?dǎo)級別(GuidanceLevelsasMeta-Action)來確定子節(jié)點(diǎn)的引導(dǎo)級別。高引導(dǎo)級別意味著更精細(xì)地、明確地去噪(利用),而低引導(dǎo)級別則意味著去噪過程可以更加自由,允許嘗試新的路徑(探索)。Simulation:從新擴(kuò)展的子規(guī)劃節(jié)點(diǎn)開始,MCTD會利用擴(kuò)散模型進(jìn)行“跳躍式去噪”(JumpyDenoising),快速生成一個(gè)從該子規(guī)劃開始到軌跡末端的粗略但完整的未來軌跡序列。然后,通過一個(gè)獎(jiǎng)勵(lì)函數(shù)評估這個(gè)粗略軌跡的價(jià)值。Backpropagation:將“模擬”階段得到的整個(gè)軌跡的獎(jiǎng)勵(lì)值,從模擬開始的子規(guī)劃節(jié)點(diǎn),沿著樹向上,更新其所有祖先子規(guī)劃節(jié)點(diǎn)的訪問次數(shù)和累積獎(jiǎng)勵(lì)。這些更新將指導(dǎo)未來的Selection階段,使得MCTS能夠更好地利用高回報(bào)路徑,探索未知的路徑。
由此,模型一方面將傳統(tǒng)的“狀態(tài)”和“動(dòng)作”的粒度提升到了“子規(guī)劃”和“子規(guī)劃間連接”的粒度;另一方面,則通過MCTS過程,控制前后子規(guī)劃的降噪進(jìn)度,實(shí)現(xiàn)異步控制,從而能夠更高效地處理長序列生成和規(guī)劃問題。
實(shí)驗(yàn)結(jié)果
MCTD在包括迷宮導(dǎo)航、機(jī)械臂操作、視覺迷宮(部分可觀測環(huán)境)等任務(wù)上進(jìn)行了測試。
在迷宮導(dǎo)航任務(wù)中,MCTD在所有地圖尺寸(medium/large/giant)上均接近100%成功率,顯著優(yōu)于基線方法。
在機(jī)械臂立方體操作中,所有方法在單方塊任務(wù)上性能相當(dāng)。而MCTD-Replanning在多方塊場景中表現(xiàn)出顯著的性能優(yōu)勢,將雙方塊任務(wù)的成功率從22%提升至50%。
在視覺迷宮中,MCTD優(yōu)于所有基線,表明其在高維感知空間中的魯棒性。
最后,隨著推理計(jì)算預(yù)算的增加(如增加最大去噪步數(shù)),MCTD成功率持續(xù)提升,而Diffuser/Diffuser-RandomSearch收益有限,驗(yàn)證了MCTD的推理可擴(kuò)展性。
總體而言,盡管MCTD通過將基于搜索的規(guī)劃與擴(kuò)散模型結(jié)合,在推理階段的可擴(kuò)展性上取得了提升,但由于其類似“系統(tǒng)二”的深度推理方式,計(jì)算成本仍然較高。
此外,由于MCTD在大規(guī)模搜索空間中效率較低——即使采用了低維的元?jiǎng)幼鳎╩eta-actions),評估多個(gè)軌跡假設(shè)的計(jì)算開銷依然很高。
因此,如何提升整體效率成為了MCTD進(jìn)一步改進(jìn)的目標(biāo)。
Fast-MCTD:加速100倍!
為了解決了MCTD計(jì)算開銷大,推理時(shí)間長的缺點(diǎn),研究團(tuán)隊(duì)又進(jìn)一步推出了快速蒙特卡洛樹擴(kuò)散框架(FastMonteCarloTreeDiffusion,F(xiàn)ast-MCTD,相比前作MCTD,在特定任務(wù)上的推理速度提升了100倍。
在原始的MCTD框架中,主要有兩個(gè)效率瓶頸:
首先,MCTS算法在設(shè)計(jì)上是順序的,每次迭代(一次完整的Selection、Expansion、Simulation、Backpropagation)完成后,才會更新搜索樹的統(tǒng)計(jì)信息(如節(jié)點(diǎn)訪問次數(shù)和價(jià)值估計(jì))。這種串行更新機(jī)制限制了算法的并行執(zhí)行能力
其次,擴(kuò)散模型在生成軌跡時(shí)需要執(zhí)行多次迭代去噪操作。當(dāng)處理長軌跡時(shí),每一次去噪都是一個(gè)計(jì)算密集型任務(wù),導(dǎo)致整體計(jì)算開銷巨大。
因此,為了降低樹搜索和迭代去噪的計(jì)算開銷,同時(shí)保留MCTD強(qiáng)大的規(guī)劃能力,F(xiàn)ast-MCTD集成了兩種關(guān)鍵的優(yōu)化技術(shù):并行MCTD和稀疏MCTD。
并行MCTD:提升并行性
MCTD沿用了MCTS的順序性,即每次模擬完成后才更新樹。并行MCTD引入了并行處理,這是Fast-MCTD與前作最顯著的區(qū)別。
并行MCTD允許K個(gè)并發(fā)的rollouts。每個(gè)rollout在共享的、固定快照(fixedsnapshot)的搜索樹上獨(dú)立進(jìn)行。
樹的更新(價(jià)值估計(jì)和訪問計(jì)數(shù))只有在整個(gè)批次的所有rollouts完成后才統(tǒng)一應(yīng)用。不過,當(dāng)批處理量增大時(shí),樹的統(tǒng)計(jì)信息會變得過時(shí),降低選擇的準(zhǔn)確性,從而影響規(guī)劃性能。
為了解決上述問題,并行MCTD引入冗余感知選擇(Redundancy-AwareSelection-RAS):它在每個(gè)并行搜索階段臨時(shí)引入一個(gè)輔助訪問計(jì)數(shù)變量,順序跟蹤當(dāng)前批次中的選擇,并在延遲樹更新后重置。
這修改了標(biāo)準(zhǔn)UCT的選擇準(zhǔn)則,通過一個(gè)超參數(shù)懲罰當(dāng)前批次中已被選中的節(jié)點(diǎn),鼓勵(lì)其他rollouts探索樹的不同部分。
由于擴(kuò)散模型去噪操作昂貴,并行MCTD提出了統(tǒng)一的批處理策略,在擴(kuò)展和模擬階段同時(shí)處理多個(gè)由RAS選擇的子規(guī)劃。它通過調(diào)度噪聲級別和同步DDIM(DenoisingDiffusionImplicitModels)更新來批處理去噪步驟。為了處理子規(guī)劃和不同引導(dǎo)級別,子規(guī)劃被填充并打包成統(tǒng)一形狀的張量,以實(shí)現(xiàn)GPU上的高吞吐量并行執(zhí)行。
稀疏MCTD:減少Rollout長度
MCTD雖然將軌跡分段為子規(guī)劃,但每個(gè)子規(guī)劃內(nèi)部仍然是相對密集的軌跡。Fast-MCTD引入了軌跡粗化,從根本上縮短了有效規(guī)劃時(shí)域。通過軌跡粗化(trajectorycoarsening)在更高的抽象層次上進(jìn)行rollouts,從而減少rollout的長度和總計(jì)算成本。
具體來說,在訓(xùn)練擴(kuò)散模型之前,通過每隔H步進(jìn)行下采樣,構(gòu)建粗粒度軌跡數(shù)據(jù)集.使用在這些壓縮表示上訓(xùn)練的專用稀疏擴(kuò)散規(guī)劃器來建模粗粒度軌跡。由此,涉及規(guī)劃的子軌跡數(shù)量大大減少,降低總體搜索復(fù)雜度及去噪成本。
在迷宮導(dǎo)航測試中,F(xiàn)ast-MCTD相對于標(biāo)準(zhǔn)MCTD實(shí)現(xiàn)了約80-110倍的顯著加速,而性能損失極小。
而在機(jī)械臂操作中,F(xiàn)ast-MCTD在保持MCTD性能的同時(shí),顯著提升了效率。
在視覺迷宮中,F(xiàn)ast-MCTD表現(xiàn)出顯著的效率提升,比MCTD快25-60倍,而在更大的迷宮中甚至超越了MCTD。
可以說,F(xiàn)ast-MCTD在保持或提升規(guī)劃性能的同時(shí),實(shí)現(xiàn)了數(shù)量級的速度提升(最高100倍),成為了更實(shí)用和可擴(kuò)展的解決方案。
ONEMORETHING
這兩篇論文的一作均來自韓國科學(xué)技術(shù)院(KAIST)的博士生尹在植(JaesikYoon)。
本文的另一位作者則是尹在植的指導(dǎo)老師安成鎮(zhèn)(SungjinAhn),安成鎮(zhèn)教授是韓國科學(xué)技術(shù)院和紐約大學(xué)的聯(lián)聘教授。
他的研究方向包括:可擴(kuò)展貝葉斯推理、深度學(xué)習(xí)以及人工智能與認(rèn)知科學(xué)的交叉領(lǐng)域,并多次擔(dān)任NeurIPS、ICM、ICLR等頂會AC。
他于加州大學(xué)歐文分校獲得博士學(xué)位,在MaxWelling教授指導(dǎo)下專注于近似貝葉斯推理研究。隨后在蒙特利爾大學(xué)的MILA實(shí)驗(yàn)室進(jìn)行博士后研究,師從深度學(xué)習(xí)先驅(qū)、圖靈獎(jiǎng)得主YoshuaBengio教授。
論文鏈接:[1]https://arxiv.org/pdf/2502.07202[2]https://arxiv.org/pdf/2506.09498學(xué)術(shù)主頁:[1]https://jaesikyoon.com/[2]https://mlml.kaist.ac.kr/sungjinahn
首推引發(fā)萬人討論的《再不練愛,就老了》,別再說沒時(shí)間讀!
《再不練愛,就老了》作者:小刀老師
強(qiáng)推名人也在看的《再不練愛,就老了》,好看又發(fā)人深省!
今日推薦:《再不練愛,就老了》作者:小刀老師。搜索書名開始觀看吧~---精選段落--- 前言是時(shí)候戳穿這個(gè)謊言了——。是時(shí)候長大成人,擔(dān)起自己的責(zé)任了。天下最難的事情不是征服珠穆朗瑪峰,而是讓自己活在愛中!作為生命旅途的同行者,我和大家一樣,哭過笑過,愛過恨過,得到過失去過。云開霧散之后,我意有幫助請點(diǎn)贊。
欲罷不能!這十三本爽文劇情從頭燃到尾,書友們怎么能停得下來!
今天小編給大家推薦:書荒必看精彩武俠小說,全部都是大神之作,絕對不能錯(cuò)過!第一本:《劍神酒祖》作者:分身斧272.02萬字簡介:老話說得好:練武不練功,到老一場空!內(nèi)力修為是決定一名武者是否是高手的關(guān)鍵因素!而內(nèi)力的修煉不是一朝一夕之事,而是需要長年累月的積累。這本是萬古不變的真理在蘇白身上希望你能滿意|_。
來源:紅網(wǎng)
作者:楊莉倩
編輯:楊佑雅
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。