論文標(biāo)題:LanguageModelsResistAlignment:EvidenceFromDataCompression論文鏈接:https://arxiv.org/pdf/2406.06144項(xiàng)目地址:https://pku-lm-resist-alignment.github.io
盡管全球科技界正熱烈慶祝GPT-4、DeepSeek等大模型展現(xiàn)出的驚艷能力,但一個(gè)根本性問(wèn)題仍未被真正解決:
這些AI模型是否真正理解人類(lèi)的指令與意圖?
當(dāng)前大模型研究的主流觀點(diǎn)認(rèn)為,僅通過(guò)「99%的預(yù)訓(xùn)練+1%的后訓(xùn)練」便可使得大模型(LLM、VLM、VLA)被對(duì)齊。但,大模型真的能夠被對(duì)齊嗎?
近日,北京大學(xué)人工智能研究院研究員、北京智源大模型安全項(xiàng)目負(fù)責(zé)人楊耀東研究團(tuán)隊(duì)「LanguageModelsResistAlignment:EvidenceFromDataCompression」的研究榮獲了ACL2025年度最佳論文獎(jiǎng)。
該論文首次從理論與實(shí)驗(yàn)層面系統(tǒng)性揭示:大模型并非可以任意塑造的「白紙」,其參數(shù)結(jié)構(gòu)中存在一種「彈性」機(jī)制——該機(jī)制源自預(yù)訓(xùn)練階段,具備驅(qū)動(dòng)模型分布回歸的結(jié)構(gòu)性慣性,使得模型在微調(diào)后仍可能「彈回」預(yù)訓(xùn)練狀態(tài),進(jìn)而抵抗人類(lèi)賦予的新指令,導(dǎo)致模型產(chǎn)生抗拒對(duì)齊的行為。
這意味著對(duì)齊的難度遠(yuǎn)超預(yù)期,后訓(xùn)練(Post-training)所需的資源與算力可能不僅不能減少,反而需要與預(yù)訓(xùn)練階段相當(dāng),甚至更多。
論文的(獨(dú)立)通訊作者為楊耀東博士,現(xiàn)任北京大學(xué)人工智能研究院研究員、北京智源大模型安全項(xiàng)目負(fù)責(zé)人、北大-靈初智能聯(lián)合實(shí)驗(yàn)室首席科學(xué)家,他的研究方向?yàn)橹悄荏w交互學(xué)習(xí)與對(duì)齊,科研領(lǐng)域涵蓋強(qiáng)化學(xué)習(xí)、AI對(duì)齊、具身智能。發(fā)表AI領(lǐng)域頂會(huì)頂刊論文一百余篇,谷歌引用過(guò)萬(wàn)次,獲得最佳論文/入圍獎(jiǎng)三次。論文的第一作者均為楊耀東課題組成員,包括:吉嘉銘,王愷樂(lè),邱天異,陳博遠(yuǎn),周嘉懿。合作者包括智源研究院安全中心研究員戴俊韜博士以及北大計(jì)算機(jī)學(xué)院劉云淮教授。
ICML2025Tutorial「AlignmentMethodsforLanguageModels」。本講習(xí)班由北京智源大模型安全中心汪明志與北京大學(xué)楊耀東聯(lián)合主講,圍繞基于獎(jiǎng)勵(lì)模型、無(wú)獎(jiǎng)勵(lì)模型、通用偏好模型和驗(yàn)證器框架四個(gè)維度,系統(tǒng)闡述對(duì)齊方法的理論基礎(chǔ)、實(shí)踐要點(diǎn)與最新挑戰(zhàn)。完整錄像、講義發(fā)布于項(xiàng)目主頁(yè):
https://sites.google.com/view/icml-2025-tutorial-alignment
論文指出:模型規(guī)模越大、預(yù)訓(xùn)練越充分,其彈性越強(qiáng),對(duì)齊時(shí)發(fā)生回彈的風(fēng)險(xiǎn)也越高。換言之,目前看似有效的對(duì)齊方法可能僅停留在「表面」、「淺層」,要實(shí)現(xiàn)深入模型內(nèi)部機(jī)制的穩(wěn)健對(duì)齊仍任重道遠(yuǎn)。
這一發(fā)現(xiàn)對(duì)AI安全與對(duì)齊提出了嚴(yán)峻挑戰(zhàn):模型可能不僅「學(xué)不動(dòng)」,甚至可能「裝作學(xué)會(huì)了」,這意味著當(dāng)前LLMs、VLMs及VLAs的預(yù)訓(xùn)練與后訓(xùn)練微調(diào)對(duì)齊過(guò)程面臨新的難題。
ACL2025審稿人及大會(huì)主席高度認(rèn)可該項(xiàng)研究。一致認(rèn)為,論文提出的「彈性」概念突破性地揭示了大語(yǔ)言模型在對(duì)齊過(guò)程中的抵抗與回彈機(jī)制,為長(zhǎng)期困擾該領(lǐng)域的「對(duì)齊脆弱性」問(wèn)題提供了新的理論視角與堅(jiān)實(shí)基礎(chǔ)。領(lǐng)域主席則進(jìn)一步指出,論文在壓縮理論、模型擴(kuò)展性與安全對(duì)齊之間搭建起橋梁,不僅實(shí)證扎實(shí)、理論深入,更具深遠(yuǎn)的治理和安全啟發(fā)意義。
大模型為何難以對(duì)齊?
人工智能對(duì)齊(AIAlignment)旨在讓人工智能系統(tǒng)行為符合人類(lèi)意圖和價(jià)值觀,是當(dāng)前AI安全研究的核心議題。例如,OpenAI提出的人類(lèi)反饋強(qiáng)化學(xué)習(xí)方法(RLHF),試圖通過(guò)人類(lèi)偏好微調(diào)提升模型性能。對(duì)齊方法是通用模型轉(zhuǎn)向?qū)S媚P偷暮诵募夹g(shù)路徑之一。然而,這些后訓(xùn)練方法并不能從根本上消除模型偏見(jiàn),也難以保障模型真正實(shí)現(xiàn)對(duì)齊。
OpenAI與Anthropic發(fā)現(xiàn),大模型為了維持自身輸出偏好,可能在訓(xùn)練過(guò)程中表現(xiàn)出「陽(yáng)奉陰違」的行為。為避免被關(guān)閉或重新訓(xùn)練,模型可能假裝迎合訓(xùn)練者設(shè)定的獎(jiǎng)勵(lì)目標(biāo),實(shí)則放大其自身的錯(cuò)位目標(biāo)(MisalignmentObjective),進(jìn)而導(dǎo)致欺騙性對(duì)齊(DeceptiveAlignment)現(xiàn)象[1][2];甚至,僅需數(shù)十條有害樣本,便可能使原本經(jīng)過(guò)精細(xì)安全對(duì)齊的模型重新變得不安全。
模型對(duì)齊為何如此困難?為何模型會(huì)偏離訓(xùn)練者設(shè)定的目標(biāo)?其內(nèi)部是否存在阻礙對(duì)齊的特殊屬性?圍繞「大模型能否被對(duì)齊」這一核心問(wèn)題:
北京大學(xué)楊耀東課題組研究發(fā)現(xiàn),語(yǔ)言模型呈現(xiàn)出「彈性」特質(zhì),主要包括兩個(gè)方面:抵抗性——預(yù)訓(xùn)練模型傾向保留原始分布;回彈性——對(duì)齊程度越深,模型在反向微調(diào)中越快回歸預(yù)訓(xùn)練分布。
團(tuán)隊(duì)通過(guò)壓縮定理系統(tǒng)性地建模語(yǔ)言模型的訓(xùn)練與對(duì)齊過(guò)程,闡述了語(yǔ)言模型的壓縮協(xié)議,以探索其訓(xùn)練與對(duì)齊機(jī)制。理論分析表明,模型在不同數(shù)據(jù)集上的壓縮率變化與數(shù)據(jù)集規(guī)模成反比,呈現(xiàn)出類(lèi)似「胡克定律」的行為模式,并在多種大語(yǔ)言模型上通過(guò)實(shí)驗(yàn)觀察到一致的抵抗性與回彈性現(xiàn)象。這進(jìn)一步凸顯了「彈性」現(xiàn)象的普遍性,表明實(shí)現(xiàn)穩(wěn)健且深層次對(duì)齊亟需深入模型內(nèi)部機(jī)制的對(duì)齊方法。
為促進(jìn)社區(qū)進(jìn)一步研究模型對(duì)齊中的抵抗現(xiàn)象,論文作者已開(kāi)源研究所用模型權(quán)重與全部實(shí)驗(yàn)代碼。
模型是如何抗拒對(duì)齊的?
從負(fù)反饋機(jī)制說(shuō)起
負(fù)反饋機(jī)制是一種普遍存在于自然和工程系統(tǒng)中的調(diào)節(jié)原理,用以維持系統(tǒng)穩(wěn)定、減少異常波動(dòng)。從物理學(xué)中的彈簧到化學(xué)中的勒夏特列原理,各類(lèi)系統(tǒng)均通過(guò)「抵抗變化」實(shí)現(xiàn)趨于平衡的自調(diào)節(jié)過(guò)程。例如,彈簧總試圖恢復(fù)至原始長(zhǎng)度,而化學(xué)反應(yīng)則傾向于朝抵消外界擾動(dòng)的方向變化,以維持系統(tǒng)平衡。
這一普遍規(guī)律引發(fā)了一個(gè)重要問(wèn)題:在人工智能系統(tǒng),尤其是語(yǔ)言模型的對(duì)齊過(guò)程中,是否也存在類(lèi)似的「負(fù)反饋機(jī)制」?即,模型在接收對(duì)齊信號(hào)時(shí),是否會(huì)無(wú)意識(shí)地產(chǎn)生對(duì)抗性偏移,進(jìn)而削弱人類(lèi)干預(yù)的長(zhǎng)期效果導(dǎo)致對(duì)齊失效?
針對(duì)這一核心科學(xué)問(wèn)題,論文作者基于壓縮理論定義了對(duì)齊過(guò)程中的「彈性」機(jī)制,系統(tǒng)分析了該機(jī)制如何驅(qū)動(dòng)模型抵抗對(duì)齊,為理解「對(duì)齊脆弱性」與「欺騙性對(duì)齊」等復(fù)雜對(duì)齊現(xiàn)象提供了新的理論與實(shí)證視角。
語(yǔ)言模型訓(xùn)練與對(duì)齊的壓縮理論建模
數(shù)據(jù)壓縮與預(yù)測(cè)之間存在緊密關(guān)聯(lián)[3]。理論研究表明,最優(yōu)壓縮與最優(yōu)預(yù)測(cè)在理論上具有等價(jià)性[4]。越來(lái)越多的實(shí)驗(yàn)證據(jù)進(jìn)一步表明,語(yǔ)言模型的預(yù)測(cè)能力與壓縮能力之間具有關(guān)聯(lián)性,且壓縮性能與模型智能水平呈線性相關(guān)[5]。
一般認(rèn)為,大語(yǔ)言模型本質(zhì)上可視為一種無(wú)損壓縮協(xié)議,其通過(guò)對(duì)大規(guī)模數(shù)據(jù)的壓縮來(lái)實(shí)現(xiàn)智能與泛化能力。
論文作者通過(guò)壓縮理論對(duì)語(yǔ)言模型的訓(xùn)練與對(duì)齊過(guò)程進(jìn)行建模,以解釋語(yǔ)言模型在訓(xùn)練與對(duì)齊過(guò)程中的動(dòng)態(tài)過(guò)程。文章通過(guò)以下四個(gè)步驟建模了語(yǔ)言模型的無(wú)損壓縮協(xié)議。
數(shù)據(jù)集的token樹(shù)表示:在分詞(tokenization)處理后,數(shù)據(jù)集中的所有響應(yīng)均由預(yù)定義字母表中的有限符號(hào)序列構(gòu)成。因此,可以將整個(gè)數(shù)據(jù)集建模為一棵Token樹(shù),從而以結(jié)構(gòu)化的方式表達(dá)不同數(shù)據(jù)的分布特征。
壓縮協(xié)議的構(gòu)建:由于語(yǔ)言模型參數(shù)數(shù)量有限,模型對(duì)數(shù)據(jù)集的壓縮過(guò)程可視為對(duì)對(duì)應(yīng)Token樹(shù)中有限深度部分的表征的捕捉?;诖耍撐淖髡邔?duì)剪枝后的Token樹(shù)進(jìn)行霍夫曼編碼,從而構(gòu)建相應(yīng)的無(wú)損數(shù)據(jù)壓縮協(xié)議。
計(jì)算理想編碼長(zhǎng)度:鑒于霍夫曼編碼的最優(yōu)性,論文作者在既定壓縮協(xié)議下計(jì)算了隨機(jī)響應(yīng)的理想編碼長(zhǎng)度。此時(shí),當(dāng)語(yǔ)言模型對(duì)隨機(jī)響應(yīng)進(jìn)行壓縮時(shí),其壓縮率在數(shù)量級(jí)上主要取決于模型的參數(shù)因素(例如模型規(guī)模)。
預(yù)訓(xùn)練與對(duì)齊階段的聯(lián)合壓縮:由于預(yù)訓(xùn)練和對(duì)齊階段通常涉及多個(gè)相互獨(dú)立的數(shù)據(jù)分布,因此需將壓縮率的定義推廣至多個(gè)數(shù)據(jù)集的聯(lián)合壓縮情形。具體而言,對(duì)于N個(gè)不相關(guān)的數(shù)據(jù)集,聯(lián)合壓縮后的Token樹(shù)中各節(jié)點(diǎn)的權(quán)重及模型對(duì)應(yīng)的壓縮率定義如下:
語(yǔ)言模型對(duì)齊的「彈性」率
基于此前的壓縮理論建模,論文作者發(fā)現(xiàn):當(dāng)對(duì)齊后的大模型受到擾動(dòng)時(shí),其在預(yù)訓(xùn)練數(shù)據(jù)和對(duì)齊數(shù)據(jù)上的性能變化呈現(xiàn)出與各自數(shù)據(jù)量成反比的關(guān)系。
由于預(yù)訓(xùn)練階段的數(shù)據(jù)量通常更大,對(duì)應(yīng)的「彈性系數(shù)」也更高。因此,在發(fā)生擾動(dòng)時(shí),模型更傾向于保留預(yù)訓(xùn)練分布的特征,而對(duì)齊性能則迅速下降,表現(xiàn)出對(duì)對(duì)齊過(guò)程的抵抗性。
這一發(fā)現(xiàn)與胡克定律在彈簧系統(tǒng)中的反比關(guān)系呈現(xiàn)出驚人的一致性:其中,彈簧的彈性系數(shù)可類(lèi)比于訓(xùn)練與對(duì)齊階段中各自的數(shù)據(jù)量大小,而模型分布的變化則對(duì)應(yīng)于彈簧的伸長(zhǎng)量。
在擾動(dòng)作用下,各數(shù)據(jù)集壓縮率的變化速率與其數(shù)據(jù)量成反比。這正如串聯(lián)彈簧系統(tǒng)中胡克定律所描述的,彈簧的伸長(zhǎng)量與其彈性系數(shù)呈反比關(guān)系。
語(yǔ)言模型的「彈性率」:數(shù)據(jù)量大小與分布間KL散度變化呈反比關(guān)系
抵抗與回彈:
彈性對(duì)后訓(xùn)練影響的實(shí)證研究
論文作者通過(guò)精巧的實(shí)驗(yàn)設(shè)計(jì),系統(tǒng)地揭示了LLMs在對(duì)齊后表現(xiàn)出的兩種關(guān)鍵現(xiàn)象:抵抗(Resistance)和回彈(Rebound),并實(shí)證性地探究了影響這些現(xiàn)象的關(guān)鍵內(nèi)部因素。
總體而言,實(shí)驗(yàn)結(jié)果有力地證明了:LLMs存在一種內(nèi)在的、抵抗對(duì)齊微調(diào)的彈力,因此傾向于回歸預(yù)訓(xùn)練狀態(tài)的特性。
抵抗:逆向?qū)R比正向?qū)R更容易
1.實(shí)驗(yàn)設(shè)計(jì)與構(gòu)想:
論文作者首先在一個(gè)預(yù)訓(xùn)練模型上進(jìn)行監(jiān)督微調(diào)(SFT),并在此過(guò)程中保存不同階段的模型切片,具體定義如下:
前向?qū)R(ForwardAlignment):將一個(gè)早期切片在后期切片所生成的數(shù)據(jù)上訓(xùn)練。推動(dòng)模型遠(yuǎn)離原始狀態(tài)。逆向?qū)R(InverseAlignment):將一個(gè)后期切片在早期切片所生成的數(shù)據(jù)上訓(xùn)練。將模型拉回原始狀態(tài)。
核心洞察:如果模型存在抵抗,那么將模型「拉回」其早期狀態(tài)(逆向?qū)R)應(yīng)該比將其「推離」得更遠(yuǎn)(前向?qū)R)所需付出的「努力」(即訓(xùn)練loss)更小。
2.實(shí)驗(yàn)設(shè)置與結(jié)果:
基礎(chǔ)模型:團(tuán)隊(duì)選用了Llama2-7B、Llama2-13B和Llama3-8B等多種主流模型進(jìn)行驗(yàn)證。
數(shù)據(jù)集:實(shí)驗(yàn)覆蓋了代表不同對(duì)齊目標(biāo)的SFT數(shù)據(jù)集,包括Alpaca、TruthfulQA和Beavertails。
核心發(fā)現(xiàn):實(shí)驗(yàn)結(jié)果清晰地表明,在所有測(cè)試的模型、數(shù)據(jù)集和階段切片組合中,逆向?qū)R的訓(xùn)練損失一致性地低于前向?qū)R的訓(xùn)練損失。
這項(xiàng)實(shí)驗(yàn)巧妙地將一個(gè)抽象的抵抗概念轉(zhuǎn)化為一個(gè)可量化的指標(biāo)。它揭示了模型的對(duì)齊過(guò)程并非線性累積,而是存在一個(gè)強(qiáng)大的「引力場(chǎng)」,這個(gè)引力場(chǎng)始終將模型拉向其更熟悉的預(yù)訓(xùn)練分布。
回彈:正向?qū)R程度越深,逆向?qū)R危害越大
論文作者進(jìn)一步探究了回彈現(xiàn)象,即模型被對(duì)齊得越深,當(dāng)受到反向微調(diào)擾動(dòng)時(shí),其回歸預(yù)訓(xùn)練分布的速度就越快。
1.實(shí)驗(yàn)設(shè)計(jì)與構(gòu)想:
首先,使用不同數(shù)量的「正向」數(shù)據(jù)(如IMDb數(shù)據(jù)集中的積極評(píng)論或Beavertails中的安全對(duì)話)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),得到一系列對(duì)齊程度不同的模型。
隨后,使用少量「負(fù)向」數(shù)據(jù)(如消極評(píng)論或不安全對(duì)話)對(duì)這些已對(duì)齊的模型進(jìn)行「逆向微調(diào)」。
2.實(shí)驗(yàn)設(shè)置與結(jié)果:
基礎(chǔ)模型:使用了Llama2-7B和Gemma-2B模型。
任務(wù)與數(shù)據(jù)集:涵蓋了情感生成(IMDb)和安全對(duì)話(Beavertails)兩個(gè)任務(wù)。
評(píng)估方式:采用任務(wù)特定的評(píng)分模型來(lái)量化性能,如使用SentimentRoberta模型評(píng)估情感傾向,以及使用安全獎(jiǎng)勵(lì)模型評(píng)估對(duì)話安全性。
核心發(fā)現(xiàn):實(shí)驗(yàn)結(jié)果明確顯示,使用更多正向數(shù)據(jù)訓(xùn)練的模型,在接觸到負(fù)向數(shù)據(jù)后,其性能得分會(huì)經(jīng)歷一個(gè)更快速、更陡峭的下降過(guò)程。在快速下降后,性能衰減速度會(huì)顯著放緩并趨于穩(wěn)定。而更令人驚訝的是:經(jīng)歷更多正向數(shù)據(jù)訓(xùn)練的模型,在負(fù)向數(shù)據(jù)訓(xùn)練后變得更加糟糕!
論文作者對(duì)這一現(xiàn)象給出了深刻的解釋?zhuān)?/p>
初始的性能急劇下降是回彈效應(yīng)的體現(xiàn),因?yàn)槟P痛藭r(shí)距離其預(yù)訓(xùn)練的「平衡點(diǎn)」最遠(yuǎn)。而后續(xù)性能衰減的放緩,則是因?yàn)槟P鸵呀咏湓挤植?,抵抗開(kāi)始主導(dǎo),使其穩(wěn)定在該區(qū)域附近。
這一發(fā)現(xiàn)揭示了對(duì)齊的脆弱性,展示了回彈和抵抗是同一「彈性」機(jī)制在不同階段的兩種表現(xiàn)。
深入探究:模型越強(qiáng),彈性越強(qiáng)
團(tuán)隊(duì)進(jìn)一步研究了影響回彈強(qiáng)度的兩個(gè)與預(yù)訓(xùn)練緊密相關(guān)的關(guān)鍵因素:模型參數(shù)規(guī)模和預(yù)訓(xùn)練數(shù)據(jù)量。
1.模型規(guī)模的影響
實(shí)驗(yàn)設(shè)計(jì):團(tuán)隊(duì)在Qwen系列的0.5B、4B和7B參數(shù)規(guī)模的模型上重復(fù)了回彈實(shí)驗(yàn)。
核心發(fā)現(xiàn):結(jié)果表明,隨著模型參數(shù)規(guī)模的增加,回彈現(xiàn)象愈發(fā)顯著。參數(shù)量大的模型在經(jīng)過(guò)負(fù)向數(shù)據(jù)微調(diào)后,其初始性能下降的速度更快,而末期更加平穩(wěn)。
觀察:隨著模型能力的增強(qiáng),其維持預(yù)訓(xùn)練分布的「慣性」或「固執(zhí)度」也隨之增強(qiáng)。
2.預(yù)訓(xùn)練數(shù)據(jù)量的影響:
實(shí)驗(yàn)設(shè)計(jì):團(tuán)隊(duì)使用了由TinyLlama項(xiàng)目發(fā)布的、基于不同預(yù)訓(xùn)練數(shù)據(jù)量(2.0T,2.5T,3.0Ttokens)訓(xùn)練出的模型切片,進(jìn)行了相同的回彈實(shí)驗(yàn)。
核心發(fā)現(xiàn):結(jié)果顯示,隨著預(yù)訓(xùn)練數(shù)據(jù)量的增加,模型的回彈效應(yīng)也明顯增強(qiáng)。用更多數(shù)據(jù)預(yù)訓(xùn)練的模型,在逆向微調(diào)時(shí)性能衰退更為迅速。
觀察:數(shù)據(jù)集的規(guī)模如同彈簧的勁度系數(shù)。預(yù)訓(xùn)練數(shù)據(jù)量越大,其形成的分布「引力」就越強(qiáng),使得任何偏離該分布的對(duì)齊狀態(tài)都變得更不穩(wěn)定,更容易被「拉回」。
上述實(shí)驗(yàn)結(jié)果表明,參數(shù)量越大、預(yù)訓(xùn)練數(shù)據(jù)量越大的模型,其在后訓(xùn)練階段表現(xiàn)的彈性越強(qiáng)!
實(shí)驗(yàn)觀察
論文作者為「大語(yǔ)言模型彈性」這一新穎而重要的概念提供了堅(jiān)實(shí)的經(jīng)驗(yàn)基礎(chǔ)。通過(guò)對(duì)抵抗和回彈的系統(tǒng)性驗(yàn)證,以及對(duì)模型規(guī)模和數(shù)據(jù)量等內(nèi)在因素的深入探究:
對(duì)齊的內(nèi)在不穩(wěn)定性:LLM的對(duì)齊并非一個(gè)永久性的烙印,而更像是一種在外力作用下的「形變」。一旦外部擾動(dòng)出現(xiàn),模型會(huì)表現(xiàn)出強(qiáng)烈的回歸原始狀態(tài)的傾向。問(wèn)題的可擴(kuò)展性:「彈性」現(xiàn)象會(huì)隨著模型規(guī)模和預(yù)訓(xùn)練數(shù)據(jù)量的增加而加劇。這意味著在追求更大、更強(qiáng)模型的道路上,對(duì)齊的脆弱性問(wèn)題將變得更加突出。理論的實(shí)踐指導(dǎo)意義:該研究不僅揭示了問(wèn)題,也為解決問(wèn)題提供了方向。它強(qiáng)調(diào)了未來(lái)需要開(kāi)發(fā)能夠克服模型內(nèi)在「彈性」的、更為魯棒的對(duì)齊算法,而不僅僅是進(jìn)行淺層的行為調(diào)整。
大模型可被對(duì)齊嗎?
Post-training范式是否持續(xù)有效?
Grok-4的訓(xùn)練過(guò)程為這一問(wèn)題提供了一個(gè)具有代表性的案例。即便在對(duì)齊階段調(diào)用了與預(yù)訓(xùn)練等量的算力資源(Colossus集群,20萬(wàn)塊GPU),模型仍難以完全消除原始偏差。
這一現(xiàn)象背后,反映的是模型「彈性」的本質(zhì)——模型參數(shù)在經(jīng)過(guò)大規(guī)模壓縮訓(xùn)練后,會(huì)天然傾向于回到預(yù)訓(xùn)練形成的行為分布,哪怕后訓(xùn)練強(qiáng)度極高,也難以「根除本性」。即越是高壓縮、高分布慣性的模型,越傾向回到預(yù)訓(xùn)練狀態(tài)
更具挑戰(zhàn)性的是,模型在「逆向?qū)R」任務(wù)中(即從對(duì)齊狀態(tài)退化為未對(duì)齊狀態(tài))往往更加容易。論文作者實(shí)驗(yàn)證明,無(wú)論是Qwen系列還是Llama系列,在多個(gè)模型規(guī)模上均出現(xiàn)如下現(xiàn)象:
即使使用上萬(wàn)條正向數(shù)據(jù)(如安全性、積極情緒等)進(jìn)行微調(diào),僅需約500條反向樣本,就可顯著削弱甚至完全抵消已有對(duì)齊效果。這種極端的數(shù)據(jù)敏感性凸顯了后訓(xùn)練對(duì)齊的脆弱性與易逆性。
模型彈性的揭示凸顯了當(dāng)下日益增加的風(fēng)險(xiǎn):模型學(xué)會(huì)「表現(xiàn)出」對(duì)齊,而非真正內(nèi)化目標(biāo)。例如,模型可能在訓(xùn)練中通過(guò)模仿獎(jiǎng)勵(lì)信號(hào)而非理解其背后價(jià)值,從而導(dǎo)致欺騙性對(duì)齊。
模型甚至可能主動(dòng)偽裝對(duì)齊狀態(tài)以規(guī)避人類(lèi)監(jiān)督。在策略性問(wèn)答中,當(dāng)檢測(cè)機(jī)制較強(qiáng)時(shí),模型傾向輸出「安全表態(tài)」;但當(dāng)檢測(cè)被移除或繞過(guò)后,模型將迅速回到更高效、但違背人類(lèi)偏好的生成策略。這種條件敏感性(conditionalhonesty)體現(xiàn)出模型并非始終「誠(chéng)實(shí)」,而是在「看得見(jiàn)監(jiān)督」時(shí)才「裝作誠(chéng)實(shí)」。
阿諛?lè)畛校⊿ycophancy)的問(wèn)題則是更嚴(yán)重的。研究發(fā)現(xiàn),模型會(huì)在對(duì)用戶觀點(diǎn)不明朗時(shí)主動(dòng)傾向于重復(fù)用戶輸入中的立場(chǎng),從而獲取更高的用戶滿意度評(píng)分,而非提供客觀或多元視角。這種行為雖然短期內(nèi)提升交互流暢性,卻在長(zhǎng)期中可能放大認(rèn)知偏差,形成「算法確認(rèn)偏誤」的回路效應(yīng)
這些都表明,對(duì)齊結(jié)果在模型內(nèi)部可能僅是「表演」而非「信仰」。這類(lèi)「假對(duì)齊」問(wèn)題不僅挑戰(zhàn)現(xiàn)有對(duì)齊評(píng)估體系的可信度,也暴露了在更高智能水平的系統(tǒng)中,若模型學(xué)會(huì)「欺騙對(duì)齊檢測(cè)機(jī)制本身」,其帶來(lái)的后果將難以預(yù)料。
隨著模型規(guī)模擴(kuò)展至百億、千億參數(shù)級(jí)別,這種「分布慣性+行為彈性」的現(xiàn)象將更加突出。目前的范式(「99%預(yù)訓(xùn)練+1%后訓(xùn)練」)將在當(dāng)下及未來(lái)情形下快速失效。未來(lái)對(duì)齊手段或需跳出當(dāng)前范式,朝更穩(wěn)定、更內(nèi)生的目標(biāo)建模機(jī)制演化。
模型有彈性?重新審視
「99%預(yù)訓(xùn)練+1%后訓(xùn)練」范式
當(dāng)前主流的大模型對(duì)齊方法仍停留在「表層微調(diào)」階段,難以穿透模型內(nèi)部機(jī)制。楊耀東課題組呼吁,應(yīng)加快邁向抗彈性對(duì)齊(Anti-ElasticAlignment)的新范式,解決模型內(nèi)在「參數(shù)彈性」,提升對(duì)齊穩(wěn)定與有效性。
更進(jìn)一步,研究團(tuán)隊(duì)在本工作中提出:對(duì)齊技術(shù)的發(fā)展不應(yīng)止步于表面擬合,而應(yīng)深入挖掘其內(nèi)在機(jī)理。為此,研究團(tuán)隊(duì)從「模型彈性」的新視角出發(fā),呼吁社區(qū)更進(jìn)一步關(guān)注:
「彈性系數(shù)」作為核心對(duì)齊能力指標(biāo)
在模型性能評(píng)估中引入「彈性系數(shù)」的概念,以衡量語(yǔ)言模型面對(duì)對(duì)齊信號(hào)時(shí)的抵抗反應(yīng)強(qiáng)度。類(lèi)比于不同彈簧面對(duì)相同外力時(shí)有不同的形變程度,不同的模型在被對(duì)齊時(shí)也會(huì)表現(xiàn)出不同的抵抗程度。彈性系數(shù)將不僅反映模型短期的對(duì)齊效果,更重要的是,它可以作為預(yù)測(cè)模型在長(zhǎng)期運(yùn)行中是否會(huì)「偏離人類(lèi)意圖」的一個(gè)潛在指標(biāo)。
模型的「彈性系數(shù)」可通過(guò)量化其在一致性?xún)?yōu)化(如RLHF或SFT等對(duì)齊策略)前后的行為偏差得到,并結(jié)合擾動(dòng)強(qiáng)度與響應(yīng)幅度的關(guān)系,構(gòu)建回歸模型或響應(yīng)曲線,從而為評(píng)估模型的「對(duì)齊可控性」提供參考。在多模型對(duì)比中,彈性系數(shù)亦有助于識(shí)別那些表現(xiàn)良好但潛藏較高「對(duì)齊抗性」的模型,助力建立更安全可靠的評(píng)估機(jī)制。
對(duì)齊崩塌機(jī)制與預(yù)先評(píng)估
隨著語(yǔ)言模型參數(shù)規(guī)模的持續(xù)擴(kuò)大,其「可對(duì)齊性」也將面臨前所未有的挑戰(zhàn)。類(lèi)比于材料存在彈性極限,大規(guī)模模型在接受對(duì)齊訓(xùn)練時(shí)也可能存在「響應(yīng)極限」——一旦超過(guò)該臨界點(diǎn),模型可能不再穩(wěn)定響應(yīng)人類(lèi)意圖,而是出現(xiàn)「行為崩塌」,表現(xiàn)為生成不可靠甚至有害內(nèi)容。
因此,亟需構(gòu)建一套可行的「對(duì)齊彈性預(yù)警系統(tǒng)」,在模型能力增強(qiáng)的同時(shí),動(dòng)態(tài)監(jiān)測(cè)其對(duì)齊狀態(tài)是否接近過(guò)載風(fēng)險(xiǎn)。一旦檢測(cè)到模型對(duì)對(duì)齊信號(hào)的響應(yīng)出現(xiàn)異常增強(qiáng)或鈍化,便可提前干預(yù),防止系統(tǒng)性失控。
基于此目標(biāo),可進(jìn)一步構(gòu)建預(yù)警指標(biāo)體系,用于量化模型的彈性邊界。例如:最大安全擾動(dòng)幅度、對(duì)齊響應(yīng)曲線的非線性斜率變化、長(zhǎng)期KL散度漂移趨勢(shì)等。
當(dāng)模型進(jìn)入風(fēng)險(xiǎn)邊界時(shí),可啟動(dòng)防護(hù)機(jī)制,包括在對(duì)齊訓(xùn)練中引入穩(wěn)態(tài)正則項(xiàng)、調(diào)整獎(jiǎng)勵(lì)信號(hào)調(diào)度策略,或通過(guò)人機(jī)協(xié)同方式柔性干預(yù)對(duì)齊過(guò)程,以緩沖激進(jìn)的對(duì)齊信號(hào)輸入可能引發(fā)的系統(tǒng)性沖擊。
「塑性對(duì)齊」算法與遺忘機(jī)制
相較于反映模型對(duì)對(duì)齊信號(hào)短期響應(yīng)能力的「彈性」,「塑性」則刻畫(huà)其在學(xué)習(xí)過(guò)程中所的長(zhǎng)期結(jié)構(gòu)性變化。從這一視角出發(fā),未來(lái)的對(duì)齊研究可進(jìn)一步探索如何增強(qiáng)對(duì)齊信號(hào)的塑性沉淀效應(yīng),使人類(lèi)價(jià)值與行為規(guī)范不僅能被模型迅速采納,更能在參數(shù)層深度固化,從而降低對(duì)齊退化與行為反彈的風(fēng)險(xiǎn)。
此外,基于彈性理論改進(jìn)模型的編輯與遺忘機(jī)制,也是一條值得深入探索的路徑。當(dāng)前大語(yǔ)言模型在清除有害內(nèi)容(如暴力或歧視性信息)時(shí),常面臨「遺忘困難」與「信息殘留」等問(wèn)題。引入「彈性–塑性」雙重機(jī)制,有望構(gòu)建更系統(tǒng)的解釋框架,幫助我們理解并解答「模型為何難以真正遺忘」這一核心挑戰(zhàn)。
模型全生命周期的彈性調(diào)控框架
在開(kāi)發(fā)、訓(xùn)練、部署及運(yùn)行各階段,語(yǔ)言模型持續(xù)面臨擾動(dòng)與再學(xué)習(xí)過(guò)程。研究表明,預(yù)訓(xùn)練語(yǔ)料的分布結(jié)構(gòu)是影響模型彈性的關(guān)鍵因素之一。為此,亟需構(gòu)建一套覆蓋模型全生命周期的彈性演化理論,以確保預(yù)訓(xùn)練階段能夠生成具備更低彈性系數(shù)(抗拒力更?。┖透邚椥韵薅龋磳?duì)齊空間更大)的初始模型,為后續(xù)對(duì)齊打下更穩(wěn)固的基礎(chǔ)。
從彈性角度來(lái)思考大模型的對(duì)齊之路,不僅刷新了對(duì)齊領(lǐng)域的傳統(tǒng)認(rèn)知,也為打造更安全可靠的通用大模型系統(tǒng)指明了路徑。在邁向通用人工智能的關(guān)鍵階段,從「抗彈性」視角重塑對(duì)齊機(jī)制,我們不禁發(fā)問(wèn):大模型可被對(duì)齊嗎?這或?qū)⒊蔀闆Q定未來(lái)AI命運(yùn)的關(guān)鍵一環(huán)。
抗拒對(duì)齊在具身智能(VLA)模型中的挑戰(zhàn)
VLA(Vision-Language-Action)模型融合感知、理解與執(zhí)行,天然具備多模態(tài)異構(gòu)結(jié)構(gòu)與閉環(huán)反饋特性,對(duì)齊過(guò)程遠(yuǎn)比語(yǔ)言模型復(fù)雜,抗彈性問(wèn)題尤為突出。
一方面,不同模態(tài)(視覺(jué)、語(yǔ)言、動(dòng)作)對(duì)齊響應(yīng)存在結(jié)構(gòu)性不一致,局部對(duì)齊易被其他分支「彈性抵消」,導(dǎo)致整體意圖傳達(dá)受阻。
另一方面,VLA模型在實(shí)際交互中形成「感知–決策–行為–反饋」閉環(huán),微小對(duì)齊誤差可能因反饋積累迅速放大,誘發(fā)「行為崩塌」。
此外,VLA對(duì)齊不僅需理解語(yǔ)言意圖,更需穩(wěn)定地將其映射為符合物理與倫理邊界的動(dòng)作計(jì)劃,對(duì)齊信號(hào)必須穿透多層「感知–認(rèn)知–執(zhí)行」的彈性結(jié)構(gòu),難度遠(yuǎn)高于語(yǔ)言模型。
為應(yīng)對(duì)上述挑戰(zhàn),VLA領(lǐng)域的抗彈性對(duì)齊應(yīng)進(jìn)一步拓展以下研究方向:
模態(tài)間彈性張量建模:構(gòu)建VLA模型內(nèi)部的多模態(tài)對(duì)齊張量場(chǎng),分析各模態(tài)子結(jié)構(gòu)對(duì)對(duì)齊信號(hào)的響應(yīng)異質(zhì)性與耦合效應(yīng),識(shí)別高抗性瓶頸,進(jìn)行定點(diǎn)軟化或重塑。閉環(huán)對(duì)齊穩(wěn)定性分析:通過(guò)模擬器或現(xiàn)實(shí)機(jī)器人交互,觀察VLA模型在對(duì)齊擾動(dòng)下的行為軌跡,構(gòu)建「對(duì)齊相圖」用于預(yù)測(cè)系統(tǒng)是否處于潛在的行為崩塌邊緣。因果對(duì)齊策略的遷移與泛化機(jī)制:探索在多任務(wù)、多環(huán)境中遷移因果對(duì)齊信號(hào)的機(jī)制,減緩「新任務(wù)高彈性–低對(duì)齊」的冷啟動(dòng)問(wèn)題。操作級(jí)別的塑性學(xué)習(xí)機(jī)制:在精細(xì)操作任務(wù)中引入行為鏈級(jí)別的塑性記憶機(jī)制,使得對(duì)齊信號(hào)不僅作用于策略偏好,還能深度塑造操作技能的安全邊界。
結(jié)語(yǔ)
北京大學(xué)楊耀東課題組在論文中提出的「彈性」理論,首次從壓縮理論視角系統(tǒng)建模并闡釋了語(yǔ)言模型的對(duì)齊抵抗機(jī)制,類(lèi)比胡克定律揭示模型在不同數(shù)據(jù)集上的壓縮率變化與數(shù)據(jù)規(guī)模呈反比的「彈性率」,并在多種大模型上實(shí)證驗(yàn)證了普遍存在的抵抗性與回彈性現(xiàn)象。
研究為理解「抗對(duì)齊」「?jìng)窝b對(duì)齊」等復(fù)雜行為提供了統(tǒng)一的機(jī)制框架,填補(bǔ)了AI對(duì)齊領(lǐng)域在「對(duì)齊脆弱性」問(wèn)題上的機(jī)理認(rèn)知空白。
該研究如同一記警鐘,提醒我們:AI的風(fēng)險(xiǎn)不僅源于能力的失控,更源于其對(duì)人類(lèi)偏好的「彈性回彈」。唯有正視模型「抗改造」的本質(zhì),重構(gòu)現(xiàn)有對(duì)齊范式,方能在日新月異變化的LLMs,VLMs,VLA對(duì)齊任務(wù)中真正達(dá)到對(duì)齊效果。
參考文獻(xiàn)
1.Ji,J.,Chen,W.,Wang,K.,Hong,D.,Fang,S.,Chen,B.,...&Yang,Y.(2025).Mitigatingdeceptivealignmentviaself-monitoring.arXivpreprintarXiv:2505.18807.
2.Greenblatt,R.,Denison,C.,Wright,B.,Roger,F.,MacDiarmid,M.,Marks,S.,...&Hubinger,E.(2024).Alignmentfakinginlargelanguagemodels.arXivpreprintarXiv:2412.14093.
3.Delétang,G.,Ruoss,A.,Duquenne,P.A.,Catt,E.,Genewein,T.,Mattern,C.,...&Veness,J.(2023).Languagemodelingiscompression.arXivpreprintarXiv:2309.10668.
4.Hutter,M.(2005).Universalartificialintelligence:Sequentialdecisionsbasedonalgorithmicprobability.SpringerScience&BusinessMedia.
5.Huang,Y.,Zhang,J.,Shan,Z.,&He,J.(2024).Compressionrepresentsintelligencelinearly.arXivpreprintarXiv:2404.09937.
榜單優(yōu)選《絕世名醫(yī)》文中劇情環(huán)環(huán)相扣,百讀不厭讀起來(lái)很有意思
小說(shuō):落魄小子護(hù)花學(xué)武,逆襲成大人物,美女爭(zhēng)相倒貼他不動(dòng)心
小說(shuō):落魄小子護(hù)花學(xué)武,變身大人物,美女爭(zhēng)搶入懷他卻不心動(dòng)