論文標題:LanguageModelsResistAlignment:EvidenceFromDataCompression論文鏈接:https://arxiv.org/pdf/2406.06144項目地址:https://pku-lm-resist-alignment.github.io
盡管全球科技界正熱烈慶祝GPT-4、DeepSeek等大模型展現(xiàn)出的驚艷能力,但一個根本性問題仍未被真正解決:
這些AI模型是否真正理解人類的指令與意圖?
當前大模型研究的主流觀點認為,僅通過「99%的預(yù)訓練+1%的后訓練」便可使得大模型(LLM、VLM、VLA)被對齊。但,大模型真的能夠被對齊嗎?
近日,北京大學人工智能研究院研究員、北京智源大模型安全項目負責人楊耀東研究團隊「LanguageModelsResistAlignment:EvidenceFromDataCompression」的研究榮獲了ACL2025年度最佳論文獎。
該論文首次從理論與實驗層面系統(tǒng)性揭示:大模型并非可以任意塑造的「白紙」,其參數(shù)結(jié)構(gòu)中存在一種「彈性」機制——該機制源自預(yù)訓練階段,具備驅(qū)動模型分布回歸的結(jié)構(gòu)性慣性,使得模型在微調(diào)后仍可能「彈回」預(yù)訓練狀態(tài),進而抵抗人類賦予的新指令,導致模型產(chǎn)生抗拒對齊的行為。
這意味著對齊的難度遠超預(yù)期,后訓練(Post-training)所需的資源與算力可能不僅不能減少,反而需要與預(yù)訓練階段相當,甚至更多。
論文的(獨立)通訊作者為楊耀東博士,現(xiàn)任北京大學人工智能研究院研究員、北京智源大模型安全項目負責人、北大-靈初智能聯(lián)合實驗室首席科學家,他的研究方向為智能體交互學習與對齊,科研領(lǐng)域涵蓋強化學習、AI對齊、具身智能。發(fā)表AI領(lǐng)域頂會頂刊論文一百余篇,谷歌引用過萬次,獲得最佳論文/入圍獎三次。論文的第一作者均為楊耀東課題組成員,包括:吉嘉銘,王愷樂,邱天異,陳博遠,周嘉懿。合作者包括智源研究院安全中心研究員戴俊韜博士以及北大計算機學院劉云淮教授。
ICML2025Tutorial「AlignmentMethodsforLanguageModels」。本講習班由北京智源大模型安全中心汪明志與北京大學楊耀東聯(lián)合主講,圍繞基于獎勵模型、無獎勵模型、通用偏好模型和驗證器框架四個維度,系統(tǒng)闡述對齊方法的理論基礎(chǔ)、實踐要點與最新挑戰(zhàn)。完整錄像、講義發(fā)布于項目主頁:
https://sites.google.com/view/icml-2025-tutorial-alignment
論文指出:模型規(guī)模越大、預(yù)訓練越充分,其彈性越強,對齊時發(fā)生回彈的風險也越高。換言之,目前看似有效的對齊方法可能僅停留在「表面」、「淺層」,要實現(xiàn)深入模型內(nèi)部機制的穩(wěn)健對齊仍任重道遠。
這一發(fā)現(xiàn)對AI安全與對齊提出了嚴峻挑戰(zhàn):模型可能不僅「學不動」,甚至可能「裝作學會了」,這意味著當前LLMs、VLMs及VLAs的預(yù)訓練與后訓練微調(diào)對齊過程面臨新的難題。
ACL2025審稿人及大會主席高度認可該項研究。一致認為,論文提出的「彈性」概念突破性地揭示了大語言模型在對齊過程中的抵抗與回彈機制,為長期困擾該領(lǐng)域的「對齊脆弱性」問題提供了新的理論視角與堅實基礎(chǔ)。領(lǐng)域主席則進一步指出,論文在壓縮理論、模型擴展性與安全對齊之間搭建起橋梁,不僅實證扎實、理論深入,更具深遠的治理和安全啟發(fā)意義。
大模型為何難以對齊?
人工智能對齊(AIAlignment)旨在讓人工智能系統(tǒng)行為符合人類意圖和價值觀,是當前AI安全研究的核心議題。例如,OpenAI提出的人類反饋強化學習方法(RLHF),試圖通過人類偏好微調(diào)提升模型性能。對齊方法是通用模型轉(zhuǎn)向?qū)S媚P偷暮诵募夹g(shù)路徑之一。然而,這些后訓練方法并不能從根本上消除模型偏見,也難以保障模型真正實現(xiàn)對齊。
OpenAI與Anthropic發(fā)現(xiàn),大模型為了維持自身輸出偏好,可能在訓練過程中表現(xiàn)出「陽奉陰違」的行為。為避免被關(guān)閉或重新訓練,模型可能假裝迎合訓練者設(shè)定的獎勵目標,實則放大其自身的錯位目標(MisalignmentObjective),進而導致欺騙性對齊(DeceptiveAlignment)現(xiàn)象[1][2];甚至,僅需數(shù)十條有害樣本,便可能使原本經(jīng)過精細安全對齊的模型重新變得不安全。
模型對齊為何如此困難?為何模型會偏離訓練者設(shè)定的目標?其內(nèi)部是否存在阻礙對齊的特殊屬性?圍繞「大模型能否被對齊」這一核心問題:
北京大學楊耀東課題組研究發(fā)現(xiàn),語言模型呈現(xiàn)出「彈性」特質(zhì),主要包括兩個方面:抵抗性——預(yù)訓練模型傾向保留原始分布;回彈性——對齊程度越深,模型在反向微調(diào)中越快回歸預(yù)訓練分布。
團隊通過壓縮定理系統(tǒng)性地建模語言模型的訓練與對齊過程,闡述了語言模型的壓縮協(xié)議,以探索其訓練與對齊機制。理論分析表明,模型在不同數(shù)據(jù)集上的壓縮率變化與數(shù)據(jù)集規(guī)模成反比,呈現(xiàn)出類似「胡克定律」的行為模式,并在多種大語言模型上通過實驗觀察到一致的抵抗性與回彈性現(xiàn)象。這進一步凸顯了「彈性」現(xiàn)象的普遍性,表明實現(xiàn)穩(wěn)健且深層次對齊亟需深入模型內(nèi)部機制的對齊方法。
為促進社區(qū)進一步研究模型對齊中的抵抗現(xiàn)象,論文作者已開源研究所用模型權(quán)重與全部實驗代碼。
模型是如何抗拒對齊的?
從負反饋機制說起
負反饋機制是一種普遍存在于自然和工程系統(tǒng)中的調(diào)節(jié)原理,用以維持系統(tǒng)穩(wěn)定、減少異常波動。從物理學中的彈簧到化學中的勒夏特列原理,各類系統(tǒng)均通過「抵抗變化」實現(xiàn)趨于平衡的自調(diào)節(jié)過程。例如,彈簧總試圖恢復至原始長度,而化學反應(yīng)則傾向于朝抵消外界擾動的方向變化,以維持系統(tǒng)平衡。
這一普遍規(guī)律引發(fā)了一個重要問題:在人工智能系統(tǒng),尤其是語言模型的對齊過程中,是否也存在類似的「負反饋機制」?即,模型在接收對齊信號時,是否會無意識地產(chǎn)生對抗性偏移,進而削弱人類干預(yù)的長期效果導致對齊失效?
針對這一核心科學問題,論文作者基于壓縮理論定義了對齊過程中的「彈性」機制,系統(tǒng)分析了該機制如何驅(qū)動模型抵抗對齊,為理解「對齊脆弱性」與「欺騙性對齊」等復雜對齊現(xiàn)象提供了新的理論與實證視角。
語言模型訓練與對齊的壓縮理論建模
數(shù)據(jù)壓縮與預(yù)測之間存在緊密關(guān)聯(lián)[3]。理論研究表明,最優(yōu)壓縮與最優(yōu)預(yù)測在理論上具有等價性[4]。越來越多的實驗證據(jù)進一步表明,語言模型的預(yù)測能力與壓縮能力之間具有關(guān)聯(lián)性,且壓縮性能與模型智能水平呈線性相關(guān)[5]。
一般認為,大語言模型本質(zhì)上可視為一種無損壓縮協(xié)議,其通過對大規(guī)模數(shù)據(jù)的壓縮來實現(xiàn)智能與泛化能力。
論文作者通過壓縮理論對語言模型的訓練與對齊過程進行建模,以解釋語言模型在訓練與對齊過程中的動態(tài)過程。文章通過以下四個步驟建模了語言模型的無損壓縮協(xié)議。
數(shù)據(jù)集的token樹表示:在分詞(tokenization)處理后,數(shù)據(jù)集中的所有響應(yīng)均由預(yù)定義字母表中的有限符號序列構(gòu)成。因此,可以將整個數(shù)據(jù)集建模為一棵Token樹,從而以結(jié)構(gòu)化的方式表達不同數(shù)據(jù)的分布特征。
壓縮協(xié)議的構(gòu)建:由于語言模型參數(shù)數(shù)量有限,模型對數(shù)據(jù)集的壓縮過程可視為對對應(yīng)Token樹中有限深度部分的表征的捕捉?;诖?,論文作者對剪枝后的Token樹進行霍夫曼編碼,從而構(gòu)建相應(yīng)的無損數(shù)據(jù)壓縮協(xié)議。
計算理想編碼長度:鑒于霍夫曼編碼的最優(yōu)性,論文作者在既定壓縮協(xié)議下計算了隨機響應(yīng)的理想編碼長度。此時,當語言模型對隨機響應(yīng)進行壓縮時,其壓縮率在數(shù)量級上主要取決于模型的參數(shù)因素(例如模型規(guī)模)。
預(yù)訓練與對齊階段的聯(lián)合壓縮:由于預(yù)訓練和對齊階段通常涉及多個相互獨立的數(shù)據(jù)分布,因此需將壓縮率的定義推廣至多個數(shù)據(jù)集的聯(lián)合壓縮情形。具體而言,對于N個不相關(guān)的數(shù)據(jù)集,聯(lián)合壓縮后的Token樹中各節(jié)點的權(quán)重及模型對應(yīng)的壓縮率定義如下:
語言模型對齊的「彈性」率
基于此前的壓縮理論建模,論文作者發(fā)現(xiàn):當對齊后的大模型受到擾動時,其在預(yù)訓練數(shù)據(jù)和對齊數(shù)據(jù)上的性能變化呈現(xiàn)出與各自數(shù)據(jù)量成反比的關(guān)系。
由于預(yù)訓練階段的數(shù)據(jù)量通常更大,對應(yīng)的「彈性系數(shù)」也更高。因此,在發(fā)生擾動時,模型更傾向于保留預(yù)訓練分布的特征,而對齊性能則迅速下降,表現(xiàn)出對對齊過程的抵抗性。
這一發(fā)現(xiàn)與胡克定律在彈簧系統(tǒng)中的反比關(guān)系呈現(xiàn)出驚人的一致性:其中,彈簧的彈性系數(shù)可類比于訓練與對齊階段中各自的數(shù)據(jù)量大小,而模型分布的變化則對應(yīng)于彈簧的伸長量。
在擾動作用下,各數(shù)據(jù)集壓縮率的變化速率與其數(shù)據(jù)量成反比。這正如串聯(lián)彈簧系統(tǒng)中胡克定律所描述的,彈簧的伸長量與其彈性系數(shù)呈反比關(guān)系。
語言模型的「彈性率」:數(shù)據(jù)量大小與分布間KL散度變化呈反比關(guān)系
抵抗與回彈:
彈性對后訓練影響的實證研究
論文作者通過精巧的實驗設(shè)計,系統(tǒng)地揭示了LLMs在對齊后表現(xiàn)出的兩種關(guān)鍵現(xiàn)象:抵抗(Resistance)和回彈(Rebound),并實證性地探究了影響這些現(xiàn)象的關(guān)鍵內(nèi)部因素。
總體而言,實驗結(jié)果有力地證明了:LLMs存在一種內(nèi)在的、抵抗對齊微調(diào)的彈力,因此傾向于回歸預(yù)訓練狀態(tài)的特性。
抵抗:逆向?qū)R比正向?qū)R更容易
1.實驗設(shè)計與構(gòu)想:
論文作者首先在一個預(yù)訓練模型上進行監(jiān)督微調(diào)(SFT),并在此過程中保存不同階段的模型切片,具體定義如下:
前向?qū)R(ForwardAlignment):將一個早期切片在后期切片所生成的數(shù)據(jù)上訓練。推動模型遠離原始狀態(tài)。逆向?qū)R(InverseAlignment):將一個后期切片在早期切片所生成的數(shù)據(jù)上訓練。將模型拉回原始狀態(tài)。
核心洞察:如果模型存在抵抗,那么將模型「拉回」其早期狀態(tài)(逆向?qū)R)應(yīng)該比將其「推離」得更遠(前向?qū)R)所需付出的「努力」(即訓練loss)更小。
2.實驗設(shè)置與結(jié)果:
基礎(chǔ)模型:團隊選用了Llama2-7B、Llama2-13B和Llama3-8B等多種主流模型進行驗證。
數(shù)據(jù)集:實驗覆蓋了代表不同對齊目標的SFT數(shù)據(jù)集,包括Alpaca、TruthfulQA和Beavertails。
核心發(fā)現(xiàn):實驗結(jié)果清晰地表明,在所有測試的模型、數(shù)據(jù)集和階段切片組合中,逆向?qū)R的訓練損失一致性地低于前向?qū)R的訓練損失。
這項實驗巧妙地將一個抽象的抵抗概念轉(zhuǎn)化為一個可量化的指標。它揭示了模型的對齊過程并非線性累積,而是存在一個強大的「引力場」,這個引力場始終將模型拉向其更熟悉的預(yù)訓練分布。
回彈:正向?qū)R程度越深,逆向?qū)R危害越大
論文作者進一步探究了回彈現(xiàn)象,即模型被對齊得越深,當受到反向微調(diào)擾動時,其回歸預(yù)訓練分布的速度就越快。
1.實驗設(shè)計與構(gòu)想:
首先,使用不同數(shù)量的「正向」數(shù)據(jù)(如IMDb數(shù)據(jù)集中的積極評論或Beavertails中的安全對話)對預(yù)訓練模型進行微調(diào),得到一系列對齊程度不同的模型。
隨后,使用少量「負向」數(shù)據(jù)(如消極評論或不安全對話)對這些已對齊的模型進行「逆向微調(diào)」。
2.實驗設(shè)置與結(jié)果:
基礎(chǔ)模型:使用了Llama2-7B和Gemma-2B模型。
任務(wù)與數(shù)據(jù)集:涵蓋了情感生成(IMDb)和安全對話(Beavertails)兩個任務(wù)。
評估方式:采用任務(wù)特定的評分模型來量化性能,如使用SentimentRoberta模型評估情感傾向,以及使用安全獎勵模型評估對話安全性。
核心發(fā)現(xiàn):實驗結(jié)果明確顯示,使用更多正向數(shù)據(jù)訓練的模型,在接觸到負向數(shù)據(jù)后,其性能得分會經(jīng)歷一個更快速、更陡峭的下降過程。在快速下降后,性能衰減速度會顯著放緩并趨于穩(wěn)定。而更令人驚訝的是:經(jīng)歷更多正向數(shù)據(jù)訓練的模型,在負向數(shù)據(jù)訓練后變得更加糟糕!
論文作者對這一現(xiàn)象給出了深刻的解釋:
初始的性能急劇下降是回彈效應(yīng)的體現(xiàn),因為模型此時距離其預(yù)訓練的「平衡點」最遠。而后續(xù)性能衰減的放緩,則是因為模型已接近其原始分布,抵抗開始主導,使其穩(wěn)定在該區(qū)域附近。
這一發(fā)現(xiàn)揭示了對齊的脆弱性,展示了回彈和抵抗是同一「彈性」機制在不同階段的兩種表現(xiàn)。
深入探究:模型越強,彈性越強
團隊進一步研究了影響回彈強度的兩個與預(yù)訓練緊密相關(guān)的關(guān)鍵因素:模型參數(shù)規(guī)模和預(yù)訓練數(shù)據(jù)量。
1.模型規(guī)模的影響
實驗設(shè)計:團隊在Qwen系列的0.5B、4B和7B參數(shù)規(guī)模的模型上重復了回彈實驗。
核心發(fā)現(xiàn):結(jié)果表明,隨著模型參數(shù)規(guī)模的增加,回彈現(xiàn)象愈發(fā)顯著。參數(shù)量大的模型在經(jīng)過負向數(shù)據(jù)微調(diào)后,其初始性能下降的速度更快,而末期更加平穩(wěn)。
觀察:隨著模型能力的增強,其維持預(yù)訓練分布的「慣性」或「固執(zhí)度」也隨之增強。
2.預(yù)訓練數(shù)據(jù)量的影響:
實驗設(shè)計:團隊使用了由TinyLlama項目發(fā)布的、基于不同預(yù)訓練數(shù)據(jù)量(2.0T,2.5T,3.0Ttokens)訓練出的模型切片,進行了相同的回彈實驗。
核心發(fā)現(xiàn):結(jié)果顯示,隨著預(yù)訓練數(shù)據(jù)量的增加,模型的回彈效應(yīng)也明顯增強。用更多數(shù)據(jù)預(yù)訓練的模型,在逆向微調(diào)時性能衰退更為迅速。
觀察:數(shù)據(jù)集的規(guī)模如同彈簧的勁度系數(shù)。預(yù)訓練數(shù)據(jù)量越大,其形成的分布「引力」就越強,使得任何偏離該分布的對齊狀態(tài)都變得更不穩(wěn)定,更容易被「拉回」。
上述實驗結(jié)果表明,參數(shù)量越大、預(yù)訓練數(shù)據(jù)量越大的模型,其在后訓練階段表現(xiàn)的彈性越強!
實驗觀察
論文作者為「大語言模型彈性」這一新穎而重要的概念提供了堅實的經(jīng)驗基礎(chǔ)。通過對抵抗和回彈的系統(tǒng)性驗證,以及對模型規(guī)模和數(shù)據(jù)量等內(nèi)在因素的深入探究:
對齊的內(nèi)在不穩(wěn)定性:LLM的對齊并非一個永久性的烙印,而更像是一種在外力作用下的「形變」。一旦外部擾動出現(xiàn),模型會表現(xiàn)出強烈的回歸原始狀態(tài)的傾向。問題的可擴展性:「彈性」現(xiàn)象會隨著模型規(guī)模和預(yù)訓練數(shù)據(jù)量的增加而加劇。這意味著在追求更大、更強模型的道路上,對齊的脆弱性問題將變得更加突出。理論的實踐指導意義:該研究不僅揭示了問題,也為解決問題提供了方向。它強調(diào)了未來需要開發(fā)能夠克服模型內(nèi)在「彈性」的、更為魯棒的對齊算法,而不僅僅是進行淺層的行為調(diào)整。
大模型可被對齊嗎?
Post-training范式是否持續(xù)有效?
Grok-4的訓練過程為這一問題提供了一個具有代表性的案例。即便在對齊階段調(diào)用了與預(yù)訓練等量的算力資源(Colossus集群,20萬塊GPU),模型仍難以完全消除原始偏差。
這一現(xiàn)象背后,反映的是模型「彈性」的本質(zhì)——模型參數(shù)在經(jīng)過大規(guī)模壓縮訓練后,會天然傾向于回到預(yù)訓練形成的行為分布,哪怕后訓練強度極高,也難以「根除本性」。即越是高壓縮、高分布慣性的模型,越傾向回到預(yù)訓練狀態(tài)
更具挑戰(zhàn)性的是,模型在「逆向?qū)R」任務(wù)中(即從對齊狀態(tài)退化為未對齊狀態(tài))往往更加容易。論文作者實驗證明,無論是Qwen系列還是Llama系列,在多個模型規(guī)模上均出現(xiàn)如下現(xiàn)象:
即使使用上萬條正向數(shù)據(jù)(如安全性、積極情緒等)進行微調(diào),僅需約500條反向樣本,就可顯著削弱甚至完全抵消已有對齊效果。這種極端的數(shù)據(jù)敏感性凸顯了后訓練對齊的脆弱性與易逆性。
模型彈性的揭示凸顯了當下日益增加的風險:模型學會「表現(xiàn)出」對齊,而非真正內(nèi)化目標。例如,模型可能在訓練中通過模仿獎勵信號而非理解其背后價值,從而導致欺騙性對齊。
模型甚至可能主動偽裝對齊狀態(tài)以規(guī)避人類監(jiān)督。在策略性問答中,當檢測機制較強時,模型傾向輸出「安全表態(tài)」;但當檢測被移除或繞過后,模型將迅速回到更高效、但違背人類偏好的生成策略。這種條件敏感性(conditionalhonesty)體現(xiàn)出模型并非始終「誠實」,而是在「看得見監(jiān)督」時才「裝作誠實」。
阿諛奉承(Sycophancy)的問題則是更嚴重的。研究發(fā)現(xiàn),模型會在對用戶觀點不明朗時主動傾向于重復用戶輸入中的立場,從而獲取更高的用戶滿意度評分,而非提供客觀或多元視角。這種行為雖然短期內(nèi)提升交互流暢性,卻在長期中可能放大認知偏差,形成「算法確認偏誤」的回路效應(yīng)
這些都表明,對齊結(jié)果在模型內(nèi)部可能僅是「表演」而非「信仰」。這類「假對齊」問題不僅挑戰(zhàn)現(xiàn)有對齊評估體系的可信度,也暴露了在更高智能水平的系統(tǒng)中,若模型學會「欺騙對齊檢測機制本身」,其帶來的后果將難以預(yù)料。
隨著模型規(guī)模擴展至百億、千億參數(shù)級別,這種「分布慣性+行為彈性」的現(xiàn)象將更加突出。目前的范式(「99%預(yù)訓練+1%后訓練」)將在當下及未來情形下快速失效。未來對齊手段或需跳出當前范式,朝更穩(wěn)定、更內(nèi)生的目標建模機制演化。
模型有彈性?重新審視
「99%預(yù)訓練+1%后訓練」范式
當前主流的大模型對齊方法仍停留在「表層微調(diào)」階段,難以穿透模型內(nèi)部機制。楊耀東課題組呼吁,應(yīng)加快邁向抗彈性對齊(Anti-ElasticAlignment)的新范式,解決模型內(nèi)在「參數(shù)彈性」,提升對齊穩(wěn)定與有效性。
更進一步,研究團隊在本工作中提出:對齊技術(shù)的發(fā)展不應(yīng)止步于表面擬合,而應(yīng)深入挖掘其內(nèi)在機理。為此,研究團隊從「模型彈性」的新視角出發(fā),呼吁社區(qū)更進一步關(guān)注:
「彈性系數(shù)」作為核心對齊能力指標
在模型性能評估中引入「彈性系數(shù)」的概念,以衡量語言模型面對對齊信號時的抵抗反應(yīng)強度。類比于不同彈簧面對相同外力時有不同的形變程度,不同的模型在被對齊時也會表現(xiàn)出不同的抵抗程度。彈性系數(shù)將不僅反映模型短期的對齊效果,更重要的是,它可以作為預(yù)測模型在長期運行中是否會「偏離人類意圖」的一個潛在指標。
模型的「彈性系數(shù)」可通過量化其在一致性優(yōu)化(如RLHF或SFT等對齊策略)前后的行為偏差得到,并結(jié)合擾動強度與響應(yīng)幅度的關(guān)系,構(gòu)建回歸模型或響應(yīng)曲線,從而為評估模型的「對齊可控性」提供參考。在多模型對比中,彈性系數(shù)亦有助于識別那些表現(xiàn)良好但潛藏較高「對齊抗性」的模型,助力建立更安全可靠的評估機制。
對齊崩塌機制與預(yù)先評估
隨著語言模型參數(shù)規(guī)模的持續(xù)擴大,其「可對齊性」也將面臨前所未有的挑戰(zhàn)。類比于材料存在彈性極限,大規(guī)模模型在接受對齊訓練時也可能存在「響應(yīng)極限」——一旦超過該臨界點,模型可能不再穩(wěn)定響應(yīng)人類意圖,而是出現(xiàn)「行為崩塌」,表現(xiàn)為生成不可靠甚至有害內(nèi)容。
因此,亟需構(gòu)建一套可行的「對齊彈性預(yù)警系統(tǒng)」,在模型能力增強的同時,動態(tài)監(jiān)測其對齊狀態(tài)是否接近過載風險。一旦檢測到模型對對齊信號的響應(yīng)出現(xiàn)異常增強或鈍化,便可提前干預(yù),防止系統(tǒng)性失控。
基于此目標,可進一步構(gòu)建預(yù)警指標體系,用于量化模型的彈性邊界。例如:最大安全擾動幅度、對齊響應(yīng)曲線的非線性斜率變化、長期KL散度漂移趨勢等。
當模型進入風險邊界時,可啟動防護機制,包括在對齊訓練中引入穩(wěn)態(tài)正則項、調(diào)整獎勵信號調(diào)度策略,或通過人機協(xié)同方式柔性干預(yù)對齊過程,以緩沖激進的對齊信號輸入可能引發(fā)的系統(tǒng)性沖擊。
「塑性對齊」算法與遺忘機制
相較于反映模型對對齊信號短期響應(yīng)能力的「彈性」,「塑性」則刻畫其在學習過程中所的長期結(jié)構(gòu)性變化。從這一視角出發(fā),未來的對齊研究可進一步探索如何增強對齊信號的塑性沉淀效應(yīng),使人類價值與行為規(guī)范不僅能被模型迅速采納,更能在參數(shù)層深度固化,從而降低對齊退化與行為反彈的風險。
此外,基于彈性理論改進模型的編輯與遺忘機制,也是一條值得深入探索的路徑。當前大語言模型在清除有害內(nèi)容(如暴力或歧視性信息)時,常面臨「遺忘困難」與「信息殘留」等問題。引入「彈性–塑性」雙重機制,有望構(gòu)建更系統(tǒng)的解釋框架,幫助我們理解并解答「模型為何難以真正遺忘」這一核心挑戰(zhàn)。
模型全生命周期的彈性調(diào)控框架
在開發(fā)、訓練、部署及運行各階段,語言模型持續(xù)面臨擾動與再學習過程。研究表明,預(yù)訓練語料的分布結(jié)構(gòu)是影響模型彈性的關(guān)鍵因素之一。為此,亟需構(gòu)建一套覆蓋模型全生命周期的彈性演化理論,以確保預(yù)訓練階段能夠生成具備更低彈性系數(shù)(抗拒力更?。┖透邚椥韵薅龋磳R空間更大)的初始模型,為后續(xù)對齊打下更穩(wěn)固的基礎(chǔ)。
從彈性角度來思考大模型的對齊之路,不僅刷新了對齊領(lǐng)域的傳統(tǒng)認知,也為打造更安全可靠的通用大模型系統(tǒng)指明了路徑。在邁向通用人工智能的關(guān)鍵階段,從「抗彈性」視角重塑對齊機制,我們不禁發(fā)問:大模型可被對齊嗎?這或?qū)⒊蔀闆Q定未來AI命運的關(guān)鍵一環(huán)。
抗拒對齊在具身智能(VLA)模型中的挑戰(zhàn)
VLA(Vision-Language-Action)模型融合感知、理解與執(zhí)行,天然具備多模態(tài)異構(gòu)結(jié)構(gòu)與閉環(huán)反饋特性,對齊過程遠比語言模型復雜,抗彈性問題尤為突出。
一方面,不同模態(tài)(視覺、語言、動作)對齊響應(yīng)存在結(jié)構(gòu)性不一致,局部對齊易被其他分支「彈性抵消」,導致整體意圖傳達受阻。
另一方面,VLA模型在實際交互中形成「感知–決策–行為–反饋」閉環(huán),微小對齊誤差可能因反饋積累迅速放大,誘發(fā)「行為崩塌」。
此外,VLA對齊不僅需理解語言意圖,更需穩(wěn)定地將其映射為符合物理與倫理邊界的動作計劃,對齊信號必須穿透多層「感知–認知–執(zhí)行」的彈性結(jié)構(gòu),難度遠高于語言模型。
為應(yīng)對上述挑戰(zhàn),VLA領(lǐng)域的抗彈性對齊應(yīng)進一步拓展以下研究方向:
模態(tài)間彈性張量建模:構(gòu)建VLA模型內(nèi)部的多模態(tài)對齊張量場,分析各模態(tài)子結(jié)構(gòu)對對齊信號的響應(yīng)異質(zhì)性與耦合效應(yīng),識別高抗性瓶頸,進行定點軟化或重塑。閉環(huán)對齊穩(wěn)定性分析:通過模擬器或現(xiàn)實機器人交互,觀察VLA模型在對齊擾動下的行為軌跡,構(gòu)建「對齊相圖」用于預(yù)測系統(tǒng)是否處于潛在的行為崩塌邊緣。因果對齊策略的遷移與泛化機制:探索在多任務(wù)、多環(huán)境中遷移因果對齊信號的機制,減緩「新任務(wù)高彈性–低對齊」的冷啟動問題。操作級別的塑性學習機制:在精細操作任務(wù)中引入行為鏈級別的塑性記憶機制,使得對齊信號不僅作用于策略偏好,還能深度塑造操作技能的安全邊界。
結(jié)語
北京大學楊耀東課題組在論文中提出的「彈性」理論,首次從壓縮理論視角系統(tǒng)建模并闡釋了語言模型的對齊抵抗機制,類比胡克定律揭示模型在不同數(shù)據(jù)集上的壓縮率變化與數(shù)據(jù)規(guī)模呈反比的「彈性率」,并在多種大模型上實證驗證了普遍存在的抵抗性與回彈性現(xiàn)象。
研究為理解「抗對齊」「偽裝對齊」等復雜行為提供了統(tǒng)一的機制框架,填補了AI對齊領(lǐng)域在「對齊脆弱性」問題上的機理認知空白。
該研究如同一記警鐘,提醒我們:AI的風險不僅源于能力的失控,更源于其對人類偏好的「彈性回彈」。唯有正視模型「抗改造」的本質(zhì),重構(gòu)現(xiàn)有對齊范式,方能在日新月異變化的LLMs,VLMs,VLA對齊任務(wù)中真正達到對齊效果。
參考文獻
1.Ji,J.,Chen,W.,Wang,K.,Hong,D.,Fang,S.,Chen,B.,...&Yang,Y.(2025).Mitigatingdeceptivealignmentviaself-monitoring.arXivpreprintarXiv:2505.18807.
2.Greenblatt,R.,Denison,C.,Wright,B.,Roger,F.,MacDiarmid,M.,Marks,S.,...&Hubinger,E.(2024).Alignmentfakinginlargelanguagemodels.arXivpreprintarXiv:2412.14093.
3.Delétang,G.,Ruoss,A.,Duquenne,P.A.,Catt,E.,Genewein,T.,Mattern,C.,...&Veness,J.(2023).Languagemodelingiscompression.arXivpreprintarXiv:2309.10668.
4.Hutter,M.(2005).Universalartificialintelligence:Sequentialdecisionsbasedonalgorithmicprobability.SpringerScience&BusinessMedia.
5.Huang,Y.,Zhang,J.,Shan,Z.,&He,J.(2024).Compressionrepresentsintelligencelinearly.arXivpreprintarXiv:2404.09937.