本論文共同第一作者于潤(rùn)芃和李奇是新加坡國(guó)立大學(xué)xML實(shí)驗(yàn)室博士生,指導(dǎo)老師為王鑫超,研究方向是多模態(tài)大模型與可信深度模型。
本文主要介紹xML團(tuán)隊(duì)的論文:DiscreteDiffusioninLargeLanguageandMultimodalModels:ASurvey。
GitHub倉(cāng)庫(kù):https://github.com/LiQiiiii/DLLM-Survey
自GPT引爆大語(yǔ)言模型熱潮以來(lái),自回歸的大語(yǔ)言模型(LLMs)與多模態(tài)模型(MLLMs)已成為智能系統(tǒng)的基石。然而,當(dāng)人們著眼于更快、更可控、更智能的生成范式時(shí),一條新興路徑悄然浮現(xiàn):離散擴(kuò)散(DiscreteDiffusion)。
本綜述系統(tǒng)梳理了離散擴(kuò)散方向的研究圖譜,呈現(xiàn)了離散擴(kuò)散語(yǔ)言模型(dLLMs)與離散擴(kuò)散多模態(tài)語(yǔ)言模型(dMLLMs)的理論基礎(chǔ)、代表模型、訓(xùn)練與推理技術(shù),以及在推理、視覺(jué)、生物等多個(gè)領(lǐng)域的應(yīng)用進(jìn)展。
圖1綜述的框架結(jié)構(gòu)與內(nèi)容
自回歸的局限與離散擴(kuò)散的崛起
傳統(tǒng)大模型采用自回歸(Autoregressive,AR)架構(gòu),其從左至右逐詞生成方式雖然自然,但存在顯著的性能瓶頸:無(wú)法并行解碼、難以精確控制輸出、局限于對(duì)輸入的靜態(tài)感知、對(duì)補(bǔ)全和逆向推理的建模能力差。這使其在需要結(jié)構(gòu)化控制與動(dòng)態(tài)感知的復(fù)雜場(chǎng)景中表現(xiàn)受限。
離散擴(kuò)散模型打破了這一范式。它不再逐詞預(yù)測(cè),而是將生成視為一個(gè)「掩碼-去噪」迭代過(guò)程,并行處理所有Token,并借助全局注意力機(jī)制實(shí)現(xiàn)動(dòng)態(tài)感知。這種設(shè)計(jì)帶來(lái)了三大核心優(yōu)勢(shì):
推理并行性(ParallelDecoding):并行推理是離散擴(kuò)散模型最大的特點(diǎn)和優(yōu)勢(shì)。并行推理使得離散擴(kuò)散每次迭代都可以解碼出多個(gè)Token,從而帶來(lái)解碼速度上的提升。
輸出可控性(Controllability)與補(bǔ)全能力(Infilling):掩碼-去噪的解碼機(jī)制,使得每一次回答都可以預(yù)設(shè)回答的長(zhǎng)度、格式、結(jié)構(gòu),為回答設(shè)定一個(gè)模板。
動(dòng)態(tài)感知能力(DynamicPerception):全局注意力機(jī)制下模型對(duì)左側(cè)Token的處理受到右側(cè)Token的影響;多輪迭代的解碼機(jī)制使得對(duì)所有Token的處理都可以反復(fù)多次進(jìn)行。這使得dLLM和dMLLM可以對(duì)長(zhǎng)語(yǔ)料和多模態(tài)輸入進(jìn)行多輪、有條件的動(dòng)態(tài)感知,而不是如單向注意力一樣僅僅能夠感知一次。
圖2自回歸模型與典型離散擴(kuò)散模型的對(duì)比
離散擴(kuò)散語(yǔ)言模型的數(shù)理基礎(chǔ)
離散擴(kuò)散語(yǔ)言模型生態(tài)概覽
圖3離散擴(kuò)散模型的發(fā)展歷程
隨著離散擴(kuò)散語(yǔ)言模型(dLLMs)快速崛起,近年來(lái)該領(lǐng)域涌現(xiàn)出一系列代表性模型。從早期探索性的輕量模型,到近期可比肩自回歸LLM的離散擴(kuò)散大模型,再到多模態(tài)與統(tǒng)一建模范式的拓展,離散擴(kuò)散正逐漸演化為一條獨(dú)立而完整的技術(shù)路徑。綜述將當(dāng)前模型生態(tài)大致劃分為以下四類(lèi):
1.輕量級(jí)模型:早期的離散擴(kuò)散模型參數(shù)量往往不超過(guò)1B,代表作包括D3PM、DiffusionBERT、RDM、Diffusion-NAT、TESS、SEDD、MDLM、MD4等。這些模型重點(diǎn)在于探索基礎(chǔ)的建模機(jī)制與去噪策略,驗(yàn)證離散擴(kuò)散在文本和多模態(tài)生成任務(wù)上的可行性。
2.大規(guī)模dLLM:隨著技術(shù)成熟,多個(gè)工作開(kāi)始將擴(kuò)散架構(gòu)拓展至10億以上參數(shù)量,構(gòu)建具備完整語(yǔ)言理解與生成能力的「非自回歸大模型」,代表模型包括:LLaDA系列、DiffuGPT/DiffuLLaMA和DREAM等。這些工作從規(guī)模上拓展了擴(kuò)散語(yǔ)言模型的邊界,系統(tǒng)性地探索了其工程可行性。
3.多模態(tài)擴(kuò)展(dMLLM):在語(yǔ)言能力日趨完善之后,研究者開(kāi)始探索dLLMs在多模態(tài)任務(wù)中的適應(yīng)性,典型代表有:Dimple、LaViDa和LLaDA-V。
4.統(tǒng)一生成模型:離散擴(kuò)散在圖片生成中的可行性很早就被驗(yàn)證了,隨著語(yǔ)言生成能力的完善,MMaDA、FUDOKI和Muddit等模型給出了一種統(tǒng)一的架構(gòu),使用離散擴(kuò)散模型在一個(gè)神經(jīng)網(wǎng)絡(luò)中同時(shí)建模文本和視覺(jué)的生成。
訓(xùn)練與推理技術(shù)
方興未艾的dLLM與dMLLM正在不斷演進(jìn),伴隨而來(lái)的還有訓(xùn)練與推理技術(shù)的持續(xù)創(chuàng)新。本綜述系統(tǒng)地梳理并歸納了已有模型中采用的核心方法,同時(shí)也在不斷收錄和更新該領(lǐng)域的最新進(jìn)展。
訓(xùn)練技術(shù)
離散擴(kuò)散模型在訓(xùn)練過(guò)程中面臨一系列獨(dú)特挑戰(zhàn),包括語(yǔ)料利用率低、生成長(zhǎng)度偏差(lengthbias)、隨機(jī)時(shí)間采樣帶來(lái)的監(jiān)督信號(hào)覆蓋率低等。為解決這些問(wèn)題,研究人員提出了多種創(chuàng)新性的訓(xùn)練機(jī)制。綜述中主要?dú)w納了以下幾類(lèi):
初始化機(jī)制:使用已經(jīng)訓(xùn)練好的BERT模型或者AR模型作為訓(xùn)練起點(diǎn),或者對(duì)模型首先進(jìn)行AR訓(xùn)練再進(jìn)行擴(kuò)散訓(xùn)練。典型的模型包括DiffuLLaMA、DiffuGPT和Dimple。這一類(lèi)初始化技術(shù)化能夠加速訓(xùn)練過(guò)程,保證模型性能,在資源受限的訓(xùn)練時(shí)效果顯著。
互補(bǔ)掩碼策略(ComplementaryMasking):為提升語(yǔ)料使用效率,構(gòu)造一對(duì)互補(bǔ)的掩碼樣本,兩次掩碼的位置互斥,但是拼起來(lái)可以使所有Token都被覆蓋,從而解決信息利用稀疏問(wèn)題。典型的模型包括LaViDa和DiffuCoder。
掩碼調(diào)度(MaskingScheduling)函數(shù):掩碼調(diào)度函數(shù)決定了訓(xùn)練過(guò)程中各個(gè)時(shí)間步上掩碼比例的大小。在訓(xùn)練過(guò)程中既可以為所有的Token設(shè)置統(tǒng)一的調(diào)度函數(shù),也可以針對(duì)各個(gè)Token設(shè)置不同的調(diào)度函數(shù)。在線性調(diào)度函數(shù)下,掩碼比例隨時(shí)間線性變化,使每一步加噪的Token數(shù)量大致相同。在凸(convex)調(diào)度函數(shù)下,掩碼函數(shù)斜率的絕對(duì)值先大后小,在時(shí)間步不大時(shí)就能夠掩碼大量的Token,從而使得模型訓(xùn)練時(shí)能夠接觸到更noisy的樣本,也鼓勵(lì)推理時(shí)從慢到快,每一步解碼出來(lái)的Token數(shù)量先少后多。
重加權(quán)策略(Reweighting):對(duì)不同Token處的損失函數(shù)值進(jìn)行調(diào)整,強(qiáng)化對(duì)特定Token的學(xué)習(xí)。比如,MGDM提升損失函數(shù)大的Token的權(quán)重,提升對(duì)困難位置的關(guān)注,加速收斂。
知識(shí)蒸餾(Distillation):通過(guò)知識(shí)蒸餾實(shí)現(xiàn)對(duì)推理步數(shù)的壓縮,將多步的「教師模型」知識(shí)傳遞給步數(shù)更少的「學(xué)生模型」。
這些技術(shù)從訓(xùn)練目標(biāo)、數(shù)據(jù)使用到網(wǎng)絡(luò)初始化等方面優(yōu)化了擴(kuò)散訓(xùn)練流程,使dLLMs得以在更大規(guī)模、更復(fù)雜任務(wù)上保持穩(wěn)定、有效的訓(xùn)練表現(xiàn)。
圖4幾種掩碼調(diào)度函數(shù)
推理技術(shù)
dLLMs和dMLLMs的推理過(guò)程中的每一步都會(huì)對(duì)所有的token進(jìn)行并行的同步預(yù)測(cè),之后基于特定的規(guī)則來(lái)決定要保留哪些位置的預(yù)測(cè)。為兼顧生成質(zhì)量與效率,研究人員提出了一系列推理技術(shù)。綜述中主要?dú)w納了以下幾類(lèi):
Unmasking策略決定「什么時(shí)候生成什么」。推理中每輪只會(huì)保留對(duì)部分Token的預(yù)測(cè),Unmasking策略負(fù)責(zé)決定解哪里、解多少。解碼的位置既可以是隨機(jī)選取,也可以是度量驅(qū)動(dòng)(Metric-based),根據(jù)模型置信度、負(fù)熵等指標(biāo)優(yōu)先解碼「最確定」的位置。每一步解碼的Token數(shù)量可以設(shè)置為固定值,也可以根據(jù)訓(xùn)練時(shí)的調(diào)度函數(shù)計(jì)算得到。如果使用了度量驅(qū)動(dòng)的解碼策略,還可以使用ConfidentDecoding算法,通過(guò)閾值動(dòng)態(tài)調(diào)整每一步解碼出來(lái)的Token數(shù)量。
Remasking技術(shù)實(shí)現(xiàn)「修正」,解決吸收態(tài)擴(kuò)散模型「寫(xiě)完不能改」的局限。Remasking允許將已經(jīng)解碼出來(lái)的Token再次設(shè)置為[Mask],從而對(duì)回答進(jìn)行修改,實(shí)現(xiàn)Test-Time-Scaling。
緩存機(jī)制(Caching):AR框架下的Prefilling和KV-Cache機(jī)制也被引入了dLLM和dMLLM中,通過(guò)緩存注意力計(jì)算的中間結(jié)果,并選擇性動(dòng)態(tài)更新,以加速生成。
Guidance技術(shù):類(lèi)比于連續(xù)擴(kuò)散模型中的Guidance機(jī)制,Classifier-FreeGuidance、RewardGuidance、Energy-BasedGuidance等技術(shù)也被應(yīng)用在離散擴(kuò)散模型中,實(shí)現(xiàn)對(duì)模型輸出的定向調(diào)整。
這些推理技術(shù)不僅提升了生成效率,更賦予了dLLMs修正和控制的能力,逐步構(gòu)建出具備實(shí)用價(jià)值的非自回歸語(yǔ)言推理范式。
結(jié)語(yǔ)
除了以上內(nèi)容,綜述中也介紹了dLLM和dMLLM在生物、視覺(jué)、推理等方面的應(yīng)用,探討了其未來(lái)可能的發(fā)展方向。
隨著大語(yǔ)言模型不斷拓展其邊界,離散擴(kuò)散模型(dLLMs與dMLLMs)為傳統(tǒng)自回歸范式提供了強(qiáng)有力的替代路徑。并行解碼、結(jié)構(gòu)控制與動(dòng)態(tài)感知等優(yōu)勢(shì)使它們突破了自回歸模型在效率與控制性上的瓶頸。從基礎(chǔ)理論到工程優(yōu)化,再到多模態(tài)與跨領(lǐng)域應(yīng)用,離散擴(kuò)散范式正在逐步走向成熟。
@misc{yu2025dllmsurvey,
title={DiscreteDiffusioninLargeLanguageandMultimodalModels:ASurvey},
author={RunpengYuandQiLiandXinchaoWang},
year={2025},
eprint={2506.13759},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2506.13759},
免責(zé)聲明:本文內(nèi)容由開(kāi)放的智能模型自動(dòng)生成,僅供參考。