曾?,?/p>
henry發(fā)自凹非寺量子位|公眾號(hào)QbitAI
一個(gè)不起眼的迷宮導(dǎo)航任務(wù),卻能讓一眾模型“原形畢露”。
Diffuser和DiffusionForcing雙雙翻車,通關(guān)率低得可憐。
唯獨(dú)有一個(gè)模型,通關(guān)率高達(dá)100%。
而它就來(lái)自圖靈獎(jiǎng)得主YoshuaBengio與其團(tuán)隊(duì)提出的全新方法:蒙特卡洛樹擴(kuò)散(MonteCarloTreeDiffusion,MCTD)
這個(gè)方法將“上古時(shí)代”的蒙特卡洛樹搜索,和當(dāng)下熱門的擴(kuò)散模型結(jié)合在一起,突破了擴(kuò)散模型在長(zhǎng)程任務(wù)推理階段缺乏可擴(kuò)展性的瓶頸,并成功入選ICML2025的Spotlight。
MakeMCTSGreatAgain?
如何在探索(Explore)未知可能性以尋找更優(yōu)解和利用(Exploit)當(dāng)前已知最佳方案之間取得平衡,一直是復(fù)雜決策和長(zhǎng)程規(guī)劃任務(wù)的核心挑戰(zhàn)之一。
一個(gè)過(guò)于強(qiáng)調(diào)探索的系統(tǒng)可能效率低下,在大量平庸選項(xiàng)中徘徊;而一個(gè)過(guò)于強(qiáng)調(diào)利用的系統(tǒng)則可能過(guò)早收斂到局部最優(yōu),錯(cuò)過(guò)全局最佳解。
對(duì)于擴(kuò)散模型來(lái)說(shuō),它雖然能夠通過(guò)去噪過(guò)程實(shí)現(xiàn)高質(zhì)量、全局一致的序列生成(對(duì)數(shù)據(jù)分布的“利用”),但缺乏在不確定性下主動(dòng)探索不同未來(lái)路徑的能力。
而MCTS恰恰具備通過(guò)樹形搜索結(jié)構(gòu)進(jìn)行高效探索和局部?jī)?yōu)化的能力,因而能夠系統(tǒng)地權(quán)衡探索與利用,并在多個(gè)決策點(diǎn)進(jìn)行智能選擇。
由此,MCTD將擴(kuò)散模型的全局一致性生成優(yōu)勢(shì)與MCTS的局部探索決策能力相結(jié)合。通過(guò)將軌跡劃分為多個(gè)子規(guī)劃來(lái)作為MCTS節(jié)點(diǎn),并對(duì)不同子規(guī)劃實(shí)施差異化的去噪調(diào)度,實(shí)現(xiàn)了在長(zhǎng)程規(guī)劃中探索與利用的平衡,提高了規(guī)劃的效率和質(zhì)量。
通過(guò)MCTS實(shí)現(xiàn)異步控制
在傳統(tǒng)的擴(kuò)散模型中,尤其是在生成軌跡時(shí),模型通常將整條軌跡視為一個(gè)整體進(jìn)行去噪,并用N來(lái)表示n個(gè)時(shí)間步的狀態(tài)。
與之相反,MCTD并不把整個(gè)N個(gè)時(shí)間步的軌跡作為一個(gè)整體去噪,而是將它劃分為S個(gè)時(shí)間段。在論文中,MCTD則先將完整軌跡X劃分5個(gè)沒有重疊的子軌跡。
例如,如果N=500,S=5,那么一個(gè)可能的劃分是:
這些子規(guī)劃在每個(gè)時(shí)間段(如1-100)是獨(dú)立的,它們之間沒有共享的時(shí)間步。
由此,每個(gè)子規(guī)劃的結(jié)束可以看作是完整軌跡的一個(gè)切片。當(dāng)模型對(duì)一個(gè)特定的子規(guī)劃進(jìn)行去噪時(shí),這段子規(guī)劃內(nèi)部的所有時(shí)間步都會(huì)同時(shí)參與到去噪過(guò)程中,遵循針對(duì)該子規(guī)劃設(shè)定的統(tǒng)一的去噪調(diào)度。
而在不同的子規(guī)劃之間,MCTS決定了不同子規(guī)劃的去噪進(jìn)度和深度,并通過(guò)其四個(gè)階段表現(xiàn)出來(lái)。
Selection:從已有的MCTS中,使用UCB(UpperConfidenceBound,在樹中選擇最有前景的節(jié)點(diǎn))策略選擇一個(gè)表示部分去噪軌跡片段(即子規(guī)劃)的節(jié)點(diǎn)。Expansion:從選定的子規(guī)劃節(jié)點(diǎn)的末端狀態(tài)出發(fā),根據(jù)不同的動(dòng)作或決策,生成一個(gè)或多個(gè)新的子規(guī)劃節(jié)點(diǎn)。這些新節(jié)點(diǎn)代表了從當(dāng)前狀態(tài)開始的下一段未探索的軌跡片段。同時(shí),為了進(jìn)行更智能的規(guī)劃,MCTS還通過(guò)元?jiǎng)幼饕龑?dǎo)級(jí)別(GuidanceLevelsasMeta-Action)來(lái)確定子節(jié)點(diǎn)的引導(dǎo)級(jí)別。高引導(dǎo)級(jí)別意味著更精細(xì)地、明確地去噪(利用),而低引導(dǎo)級(jí)別則意味著去噪過(guò)程可以更加自由,允許嘗試新的路徑(探索)。Simulation:從新擴(kuò)展的子規(guī)劃節(jié)點(diǎn)開始,MCTD會(huì)利用擴(kuò)散模型進(jìn)行“跳躍式去噪”(JumpyDenoising),快速生成一個(gè)從該子規(guī)劃開始到軌跡末端的粗略但完整的未來(lái)軌跡序列。然后,通過(guò)一個(gè)獎(jiǎng)勵(lì)函數(shù)評(píng)估這個(gè)粗略軌跡的價(jià)值。Backpropagation:將“模擬”階段得到的整個(gè)軌跡的獎(jiǎng)勵(lì)值,從模擬開始的子規(guī)劃節(jié)點(diǎn),沿著樹向上,更新其所有祖先子規(guī)劃節(jié)點(diǎn)的訪問次數(shù)和累積獎(jiǎng)勵(lì)。這些更新將指導(dǎo)未來(lái)的Selection階段,使得MCTS能夠更好地利用高回報(bào)路徑,探索未知的路徑。
由此,模型一方面將傳統(tǒng)的“狀態(tài)”和“動(dòng)作”的粒度提升到了“子規(guī)劃”和“子規(guī)劃間連接”的粒度;另一方面,則通過(guò)MCTS過(guò)程,控制前后子規(guī)劃的降噪進(jìn)度,實(shí)現(xiàn)異步控制,從而能夠更高效地處理長(zhǎng)序列生成和規(guī)劃問題。
實(shí)驗(yàn)結(jié)果
MCTD在包括迷宮導(dǎo)航、機(jī)械臂操作、視覺迷宮(部分可觀測(cè)環(huán)境)等任務(wù)上進(jìn)行了測(cè)試。
在迷宮導(dǎo)航任務(wù)中,MCTD在所有地圖尺寸(medium/large/giant)上均接近100%成功率,顯著優(yōu)于基線方法。
在機(jī)械臂立方體操作中,所有方法在單方塊任務(wù)上性能相當(dāng)。而MCTD-Replanning在多方塊場(chǎng)景中表現(xiàn)出顯著的性能優(yōu)勢(shì),將雙方塊任務(wù)的成功率從22%提升至50%。
在視覺迷宮中,MCTD優(yōu)于所有基線,表明其在高維感知空間中的魯棒性。
最后,隨著推理計(jì)算預(yù)算的增加(如增加最大去噪步數(shù)),MCTD成功率持續(xù)提升,而Diffuser/Diffuser-RandomSearch收益有限,驗(yàn)證了MCTD的推理可擴(kuò)展性。
總體而言,盡管MCTD通過(guò)將基于搜索的規(guī)劃與擴(kuò)散模型結(jié)合,在推理階段的可擴(kuò)展性上取得了提升,但由于其類似“系統(tǒng)二”的深度推理方式,計(jì)算成本仍然較高。
此外,由于MCTD在大規(guī)模搜索空間中效率較低——即使采用了低維的元?jiǎng)幼鳎╩eta-actions),評(píng)估多個(gè)軌跡假設(shè)的計(jì)算開銷依然很高。
因此,如何提升整體效率成為了MCTD進(jìn)一步改進(jìn)的目標(biāo)。
Fast-MCTD:加速100倍!
為了解決了MCTD計(jì)算開銷大,推理時(shí)間長(zhǎng)的缺點(diǎn),研究團(tuán)隊(duì)又進(jìn)一步推出了快速蒙特卡洛樹擴(kuò)散框架(FastMonteCarloTreeDiffusion,F(xiàn)ast-MCTD,相比前作MCTD,在特定任務(wù)上的推理速度提升了100倍。
在原始的MCTD框架中,主要有兩個(gè)效率瓶頸:
首先,MCTS算法在設(shè)計(jì)上是順序的,每次迭代(一次完整的Selection、Expansion、Simulation、Backpropagation)完成后,才會(huì)更新搜索樹的統(tǒng)計(jì)信息(如節(jié)點(diǎn)訪問次數(shù)和價(jià)值估計(jì))。這種串行更新機(jī)制限制了算法的并行執(zhí)行能力
其次,擴(kuò)散模型在生成軌跡時(shí)需要執(zhí)行多次迭代去噪操作。當(dāng)處理長(zhǎng)軌跡時(shí),每一次去噪都是一個(gè)計(jì)算密集型任務(wù),導(dǎo)致整體計(jì)算開銷巨大。
因此,為了降低樹搜索和迭代去噪的計(jì)算開銷,同時(shí)保留MCTD強(qiáng)大的規(guī)劃能力,F(xiàn)ast-MCTD集成了兩種關(guān)鍵的優(yōu)化技術(shù):并行MCTD和稀疏MCTD。
并行MCTD:提升并行性
MCTD沿用了MCTS的順序性,即每次模擬完成后才更新樹。并行MCTD引入了并行處理,這是Fast-MCTD與前作最顯著的區(qū)別。
并行MCTD允許K個(gè)并發(fā)的rollouts。每個(gè)rollout在共享的、固定快照(fixedsnapshot)的搜索樹上獨(dú)立進(jìn)行。
樹的更新(價(jià)值估計(jì)和訪問計(jì)數(shù))只有在整個(gè)批次的所有rollouts完成后才統(tǒng)一應(yīng)用。不過(guò),當(dāng)批處理量增大時(shí),樹的統(tǒng)計(jì)信息會(huì)變得過(guò)時(shí),降低選擇的準(zhǔn)確性,從而影響規(guī)劃性能。
為了解決上述問題,并行MCTD引入冗余感知選擇(Redundancy-AwareSelection-RAS):它在每個(gè)并行搜索階段臨時(shí)引入一個(gè)輔助訪問計(jì)數(shù)變量,順序跟蹤當(dāng)前批次中的選擇,并在延遲樹更新后重置。
這修改了標(biāo)準(zhǔn)UCT的選擇準(zhǔn)則,通過(guò)一個(gè)超參數(shù)懲罰當(dāng)前批次中已被選中的節(jié)點(diǎn),鼓勵(lì)其他rollouts探索樹的不同部分。
由于擴(kuò)散模型去噪操作昂貴,并行MCTD提出了統(tǒng)一的批處理策略,在擴(kuò)展和模擬階段同時(shí)處理多個(gè)由RAS選擇的子規(guī)劃。它通過(guò)調(diào)度噪聲級(jí)別和同步DDIM(DenoisingDiffusionImplicitModels)更新來(lái)批處理去噪步驟。為了處理子規(guī)劃和不同引導(dǎo)級(jí)別,子規(guī)劃被填充并打包成統(tǒng)一形狀的張量,以實(shí)現(xiàn)GPU上的高吞吐量并行執(zhí)行。
稀疏MCTD:減少Rollout長(zhǎng)度
MCTD雖然將軌跡分段為子規(guī)劃,但每個(gè)子規(guī)劃內(nèi)部仍然是相對(duì)密集的軌跡。Fast-MCTD引入了軌跡粗化,從根本上縮短了有效規(guī)劃時(shí)域。通過(guò)軌跡粗化(trajectorycoarsening)在更高的抽象層次上進(jìn)行rollouts,從而減少rollout的長(zhǎng)度和總計(jì)算成本。
具體來(lái)說(shuō),在訓(xùn)練擴(kuò)散模型之前,通過(guò)每隔H步進(jìn)行下采樣,構(gòu)建粗粒度軌跡數(shù)據(jù)集.使用在這些壓縮表示上訓(xùn)練的專用稀疏擴(kuò)散規(guī)劃器來(lái)建模粗粒度軌跡。由此,涉及規(guī)劃的子軌跡數(shù)量大大減少,降低總體搜索復(fù)雜度及去噪成本。
在迷宮導(dǎo)航測(cè)試中,F(xiàn)ast-MCTD相對(duì)于標(biāo)準(zhǔn)MCTD實(shí)現(xiàn)了約80-110倍的顯著加速,而性能損失極小。
而在機(jī)械臂操作中,F(xiàn)ast-MCTD在保持MCTD性能的同時(shí),顯著提升了效率。
在視覺迷宮中,F(xiàn)ast-MCTD表現(xiàn)出顯著的效率提升,比MCTD快25-60倍,而在更大的迷宮中甚至超越了MCTD。
可以說(shuō),F(xiàn)ast-MCTD在保持或提升規(guī)劃性能的同時(shí),實(shí)現(xiàn)了數(shù)量級(jí)的速度提升(最高100倍),成為了更實(shí)用和可擴(kuò)展的解決方案。
ONEMORETHING
這兩篇論文的一作均來(lái)自韓國(guó)科學(xué)技術(shù)院(KAIST)的博士生尹在植(JaesikYoon)。
本文的另一位作者則是尹在植的指導(dǎo)老師安成鎮(zhèn)(SungjinAhn),安成鎮(zhèn)教授是韓國(guó)科學(xué)技術(shù)院和紐約大學(xué)的聯(lián)聘教授。
他的研究方向包括:可擴(kuò)展貝葉斯推理、深度學(xué)習(xí)以及人工智能與認(rèn)知科學(xué)的交叉領(lǐng)域,并多次擔(dān)任NeurIPS、ICM、ICLR等頂會(huì)AC。
他于加州大學(xué)歐文分校獲得博士學(xué)位,在MaxWelling教授指導(dǎo)下專注于近似貝葉斯推理研究。隨后在蒙特利爾大學(xué)的MILA實(shí)驗(yàn)室進(jìn)行博士后研究,師從深度學(xué)習(xí)先驅(qū)、圖靈獎(jiǎng)得主YoshuaBengio教授。
論文鏈接:[1]https://arxiv.org/pdf/2502.07202[2]https://arxiv.org/pdf/2506.09498學(xué)術(shù)主頁(yè):[1]https://jaesikyoon.com/[2]https://mlml.kaist.ac.kr/sungjinahn
姐姐面癱治愈,6歲妹妹送畫致謝醫(yī)護(hù)人員??紅網(wǎng)
也就是面癱。筒隱月子《變態(tài)王子與不笑貓》這個(gè)女孩子臉上有表情的時(shí)候超級(jí)可愛的,但是她因?yàn)椴幌氡唤憬阌憛?,所以像那只奇怪的貓進(jìn)行許愿,在那之后,她就沒有表情了,就變成一個(gè)看不出內(nèi)心在想什么的女孩子。然后她決定把表情送給她的姐姐,之后又和陽(yáng)人一起去尋找那些不需要表情的人,從那次許愿之后,她就還有呢?
動(dòng)漫中那些可愛的面癱妹子
接下來(lái)就讓部長(zhǎng)給大家介紹幾位動(dòng)漫中可愛的面癱妹子吧!我們至今還不知道第三位和黑一起去了哪里! 《變態(tài)王子與不笑貓》筒隱月子筒隱月子是筒隱家的次女,因?yàn)閺男「改傅娜ナ赖脑?,所以現(xiàn)在和姐姐一起生活|。本性十分孩子氣,并且情緒起伏劇烈,因此月子向不笑貓?jiān)S愿隱藏起自己的表情,而在這個(gè)愿望的作用下,月子等我繼續(xù)說(shuō)。
騙了我們30年?原來(lái)倪大紅的姐姐就是倪萍?網(wǎng)友:難怪能火
倪大紅,一個(gè)演藝界的“面癱”奇才,他的成功背后究竟隱藏著怎樣的堅(jiān)韌與執(zhí)著?是家族淵源還是演藝天賦?這個(gè)看似冷漠的面容背后,到底藏著怎樣的內(nèi)心世界?難道倪大紅的姐姐竟是倪萍?這一切的背后,是30年的隱秘還是瞞天過(guò)海?倪大紅和倪萍原來(lái)是親兄妹!想不到這對(duì)天外飛仙竟是親情滿滿的兄妹檔!八卦圈終于是什么。
來(lái)源:紅網(wǎng)
作者:熊靜怡
編輯:業(yè)嘉石
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。