聞樂發(fā)自凹非寺量子位|公眾號QbitAI
擴散模型寫代碼,不僅像開了倍速,改起來還特別靈活!
字節(jié)Seed最新發(fā)布擴散語言模型SeedDiffusionPreview,這款模型主要聚焦于代碼生成領域,它的特別之處在于采用了離散狀態(tài)擴散技術,在推理速度上表現(xiàn)出色。
在H20上,它的代碼推理速度能達到2146tokens/s,比同類的Mercury和GeminiDiffusion等模型快不少,同時比同等規(guī)模的自回歸模型快5.4倍,并且在代碼編輯任務中更具優(yōu)勢。
SeedDiffusionPreview以結構化的代碼生成為實驗領域,系統(tǒng)性地驗證離散擴散技術路線作為下一代語言模型基礎框架的可行性。
下面介紹它的具體技術細節(jié)。
核心是兩階段訓練學習
自回歸模型存在串行解碼延遲瓶頸,理論上,擴散模型的并行生成潛力和整體性生成的優(yōu)勢可以解決自回歸模型推理速度局限這一痛點。
但理論優(yōu)勢與實際效果還是有差距,離散擴散模型在語言任務中的大規(guī)模部署仍面臨兩大核心瓶頸:歸納偏置沖突推理效率瓶頸
為解決上述問題,SeedDiffusionPreview采用了四項關鍵的技術創(chuàng)新。
兩階段訓練
兩階段訓練是模型的核心訓練策略。
這是針對離散擴散過程設計的漸進式訓練方案,兩個階段分別采用不同的corruption過程(即對原始數(shù)據(jù)的擾動方式)。通過分階段優(yōu)化模型對token的理解與生成能力,平衡訓練效率與生成質量。
第一個階段是基于掩碼的擴散訓練,學習上下文補全,占整個訓練步驟的80%。
目標是將原始序列中的token替換為特殊的[MASK]標記,讓模型學習從部分被掩蓋的序列中恢復原始token,以此奠定基礎的語言建模能力。
第二個階段是基于編輯的擴散訓練,增強全局的合理性。
掩碼訓練可能帶來“捷徑依賴”的問題——優(yōu)先利用未掩碼token的局部關聯(lián)性進行恢復,而非理解整個序列的全局邏輯。
此階段的目標就是通過插入、刪除、替換等編輯操作對原始序列進行擾動,并用編輯距離衡量擾動程度,編輯次數(shù)由特定函數(shù)控制在合理范圍內,打破模型對未掩碼token的錯誤認知,迫使模型重新評估所有token。
實證表明,引入編輯階段后,模型在代碼修復基準CanItEdit上的pass@1對比自回歸模型(AR模型)提升了4.8%(54.3vs.50.5),明顯增強了模型的代碼邏輯理解與修復能力。
約束順序擴散
為解決離散擴散模型在代碼生成中“邏輯混亂”的問題,團隊設計引入代碼的結構化先驗,核心是讓模型遵循代碼固有的“規(guī)矩”。
雖然代碼這類語言不像說話那樣又嚴格的從左到右邏輯,但它有很強的因果關系——比如變量要先聲明才能用等。
為了讓模型懂這些規(guī)矩,團隊提出約束順序訓練:先讓模型通過內部的預訓練模型,大量模擬正確的代碼生成過程,然后像提煉公式一樣,把這些正確的生成順序濃縮成模型能夠學會的規(guī)律。
這樣模型在生成代碼時就能自覺遵循這些結構化的邏輯,不再亂序生成。
同策略學習范式
在SeedDiffusion模型中,生成速度的優(yōu)化通過多重策略協(xié)同實現(xiàn)。
首先,采用同策略學習范式(on-policy),讓模型在訓練時直接使用當前策略生成的采樣軌跡進行參數(shù)更新,確保訓練數(shù)據(jù)與模型當前能力高度匹配,減少策略偏差帶來的效率損耗,加速采樣策略的迭代優(yōu)化,從算法層面提升生成效率。
簡單說就是模型邊生成代碼邊學習。模型用現(xiàn)在的本事生成一段代碼過程,然后就用這個過程的數(shù)據(jù)來改進自己,這樣學的東西就和自己當前的能力很匹配,不會因為用老數(shù)據(jù)而走彎路,能更快地把生成代碼的策略優(yōu)化好。
塊級并行擴散采樣
為平衡計算資源與生成延遲,模型采用塊級并行擴散采樣方案。該方案將生成序列劃分為多個塊,在擴散采樣過程中對這些塊進行并行處理,而非逐token串行生成。
這樣既能把電腦的計算能力充分用起來,又不會因為一次處理太長的內容而耽誤時間,能在計算量和生成速度之間找到合適的平衡,比如調整塊的大小,就能靈活控制速度和效率。
此外,模型還依托內部基礎設施框架進行系統(tǒng)級優(yōu)化,包括硬件資源調度、計算流程精簡等,進一步降低采樣過程中的冗余開銷,最終實現(xiàn)了推理速度的顯著提升。
團隊通過一系列實驗驗證了模型在代碼生成領域的優(yōu)勢,核心成果體現(xiàn)在推理速度的大幅提升、生成質量的競爭力以及關鍵技術的有效性三個方面:
在H20上可達每秒2146個token,同時保持了代碼生成質量的競爭力,性能與優(yōu)秀模型相當,尤其是在代碼編輯任務中優(yōu)勢更明顯
SeedDiffusionPreview的測試結果驗證了了離散擴散路線在大語言模型推理上的潛力。
一個小tip:SeedDiffusion項目組正在招募研究型實習生,如果你基礎能力過關、代碼能力優(yōu)秀,并且對探索下一代大模型范式感興趣,可以一試~
技術報告:https://lf3-static.bytednsdoc.com/obj/eden-cn/hyvsmeh7uhobf/sdiff_updated.pdf項目地址:https://seed.bytedance.com/seed_diffusion體驗鏈接:https://studio.seed.ai/exp/seed_diffusion
—完—
《龍珠Z 卡卡洛特+新覺醒篇》實機演示 新角色悟天克斯和貝吉塔...
根據(jù)官方的介紹,解鎖可操作角色“悟天克斯”和“貝吉塔”的支線任務將在游戲本篇通關后開放,他們將在Switch上率先登場,其他平臺版本將于日后實裝|-?!洱堉閆 卡卡洛特+新覺醒篇》將于9月22日正式登陸任天堂Switch。視頻截圖: 布羅利覺醒《龍珠超·布羅利》這部劇場版專一為布羅利打造,暴走之后的超綠形態(tài),其實就是超級賽亞人獲得巨猿之力的形態(tài),戰(zhàn)斗力再次提升十倍_。原本布羅利變身超賽之后戰(zhàn)斗力就能達到超賽神級別,提升十倍之后,悟空只能望其項背了。最新資料顯示:布羅利已經(jīng)開始訓練,甚至不少人認為布羅利會與貝吉塔一樣,掌握自我極意是什么|——。重溫經(jīng)典與震撼體驗:龍珠覺醒手游全新上線