AI也能選擇性失憶?Meta聯(lián)合NYU發(fā)布新作,輕松操控縮放Transformer注意頭,讓大模型「忘掉狗會叫」。記憶可刪、偏見可調(diào)、安全可破,掀開大模型「可編輯時代」,安全邊界何去何從。
大模型在預(yù)訓(xùn)練階段「讀萬卷書」,幾乎囊括了全網(wǎng)的知識與語料。
但你有沒有想過:我們能否讓它「選擇性遺忘」某些事實(shí),甚至是常識性事實(shí),比如「狗會叫」?
近日,Meta和紐約大學(xué)的研究團(tuán)隊發(fā)布了突破性論文《FromConceptstoComponents》,首次揭示了在Transformer架構(gòu)下,精準(zhǔn)定位并控制AI認(rèn)知模塊的突破性方法。
也就是說,我們不僅可以知道「狗」這個概念在模型里具體「存在于哪些部位」,還可以用一個參數(shù)輕松精準(zhǔn)放大或抹除它的影響力!
以GPT、LLaMA為代表的Transformer模型在語言理解、圖像識別等領(lǐng)域取得了驚人成就,但它們的工作機(jī)制卻像一個神秘的黑箱。
這帶來了兩大問題:一方面,我們無法解釋模型為何會產(chǎn)生特定輸出,難以排查偏見或錯誤。
另一方面,當(dāng)需要調(diào)整模型行為(如增強(qiáng)推理能力或提升安全性)時,只能通過海量數(shù)據(jù)重新訓(xùn)練,效率極低。
紐約大學(xué)計算機(jī)科學(xué)教授JuliaKempe指出:「當(dāng)模型在醫(yī)療診斷、自動駕駛等關(guān)鍵領(lǐng)域應(yīng)用時,可解釋性不僅是學(xué)術(shù)問題,更是安全剛需。如果不能理解AI如何做出判斷,就無法真正信任它。」
論文中的參數(shù)調(diào)整立竿見影。
在研究者讓模型「忘記」狗會叫之后,模型真的忘記了這個常識,并輸出了「蜂鳥會叫」、「蝴蝶會叫」等「胡言亂語」:
研究團(tuán)隊提出的SAMD(可擴(kuò)展注意力模塊發(fā)現(xiàn))和SAMI(標(biāo)量注意力模塊干預(yù))方法相輔相成。
前者能像CT掃描一樣定位模型中負(fù)責(zé)特定概念的注意力模塊,后者能像精密手術(shù)一樣微調(diào)強(qiáng)度,實(shí)現(xiàn)精準(zhǔn)控制。
概念控制術(shù),如何定位AI的認(rèn)知模塊?
研究團(tuán)隊實(shí)現(xiàn)概念的定位和權(quán)重調(diào)整主要依賴于兩大關(guān)鍵技術(shù)。
SAMD的靈感來自一個簡單而深刻的洞察:Transformer中的每個概念,都對應(yīng)著一組特定的注意力頭組合。
這是一種無需預(yù)設(shè)標(biāo)簽的通用方法,能將任意概念(例如「狗」或者「法語」)編碼成向量,并通過與每個注意力頭計算余弦相似度,找到高度相關(guān)的top-K模塊。
具體來說:
概念向量化:將任意概念轉(zhuǎn)化為數(shù)學(xué)向量。對于「狗」這個概念,可以生成一個能代表「狗」的特征向量;像「推理」這樣的抽象概念,則可以利用思維鏈(CoT)提示數(shù)據(jù)集來構(gòu)建向量。注意力頭相似度計算:Transformer模型通常包含數(shù)十層,每層有多個注意力頭。SAMD會計算概念向量與每個注意力頭輸出的余弦相似度。模塊構(gòu)建:選取相似度最高的top-K個注意力頭(通常只需3-10個),組成該概念的專屬模塊。這些關(guān)鍵注意力頭往往集中在模型的特定層,形成有規(guī)律的空間分布。這種方法不僅適用于語言模型,在視覺Transformer(ViT)上同樣有效。給AI「調(diào)參」精確控制模型行為另外一個是SAMI(ScalarAttentionModuleIntervention)。這是團(tuán)隊提出的大模型「概念控制術(shù)」的核心。SAMI方法簡潔而高效,僅通過一個標(biāo)量參數(shù),就能放大或減弱特定概念的影響,無需修改模型權(quán)重或重新訓(xùn)練。只需對上一步SAMD中定位到的這些注意力頭的輸出加一個系數(shù)(如×0.1或×10),即可放大或抹除某一概念在模型輸出中的作用。簡單來說,只要你告訴模型忘記指定概念,如「狗是會叫的」,它就真的記不起來了。
SAMI的工作原理類似于調(diào)節(jié)音響的音量旋鈕:當(dāng)參數(shù)s1時,相當(dāng)于放大模塊的輸出,增強(qiáng)對應(yīng)概念的影響力;當(dāng)s這種干預(yù)直接作用于殘差流計算,通過調(diào)整特定注意力頭的貢獻(xiàn)強(qiáng)度來改變最終輸出。10個注意頭,輕松調(diào)語義讓大模型忘記指定概念的「失憶手術(shù)」流程可拆解為三步。首先,研究者使用SupervisedAutoencoder(SAE)對模型的中間層特征空間進(jìn)行編碼,提取出某一語義概念的向量表示。這個過程可以理解為,給出一個概念,用一組神經(jīng)特征刻畫它。接著,SAMD(ScalableAttentionModuleDiscovery)方法將概念向量與每一個注意力頭輸出進(jìn)行余弦相似度計算,找出最相關(guān)的top-K模塊。這一過程的目的是在模型中「定位知識的存儲位置」。例如,下圖中「French」概念對應(yīng)的是第15-26層的5個attentionhead。
最后,SAMI(ScalarAttentionModuleIntervention)直接對上述模塊的輸出進(jìn)行干預(yù)。只需乘以一個縮放因子(如×0.1或×10),即可有效「抹除」或「放大」該概念的表達(dá)。這一干預(yù)效果立竿見影,除了忘記「狗會叫」外,還能讓模型在「忘記SanFrancisco」后胡亂生成與地理無關(guān)的城市名。
通過這三步,研究者驗(yàn)證了概念模塊的存在性和AI可控記憶的可行性。更顛覆的是,團(tuán)隊發(fā)現(xiàn):一個復(fù)雜概念,往往只由3-10個注意力頭承載。這個發(fā)現(xiàn)把Transformer的可解釋性推向了新的高度:大模型的知識存儲高度稀疏、具備極強(qiáng)的可干預(yù)性??梢杂妙愃啤刚{(diào)音臺」的方式,精確控制每一個語義模塊的「響度」。實(shí)驗(yàn)結(jié)果研究團(tuán)隊在四種典型場景中驗(yàn)證了方法的有效性,覆蓋從簡單概念到復(fù)雜能力,從語言模型到視覺模型。稀疏自編碼器(SAE)特征利用SAE提取的可解釋特征,研究人員測試了「狗」「舊金山」等四個概念。通過SAMD定位的模塊在干預(yù)后表現(xiàn)出一致規(guī)律:負(fù)干預(yù)(s=-1)會顯著減少概念出現(xiàn)頻率,甚至導(dǎo)致模型錯誤識別(如將「會汪汪叫的動物」回答為「蜂鳥」);正干預(yù)(s=10?)則會引發(fā)概念重復(fù),如「舊金山」模塊被放大后,模型會連續(xù)四次重復(fù)「舊金山以金門大橋聞名」。如此靈活的「調(diào)音效果」令人驚喜,但也讓人「細(xì)思恐極」。這給個性化微調(diào)大模型、提高模型特定維度能力打開了全新的思路。增強(qiáng)數(shù)學(xué)推理能力在GSM8K數(shù)學(xué)推理數(shù)據(jù)集上,研究人員通過SAMD定位了LLAMA-3.1-8B-INSTRUCT和GEMMA-7B-BASE的推理模塊。當(dāng)用s=1.4和s=1.2進(jìn)行正干預(yù)后,前者準(zhǔn)確率從84.61%提升至85.44%,后者從54.36%提升至56.71%。
這種增強(qiáng)并未以犧牲其他能力為代價。在常識問答(CommonsenseQA)、代碼生成(Humaneval+)等測試中,模型性能幾乎沒有變化。這表明SAMI能夠精準(zhǔn)增強(qiáng)目標(biāo)能力,避免了傳統(tǒng)訓(xùn)練方法的顧此失彼。安全模塊與越獄控制通過對比有害和無害提示數(shù)據(jù)集,研究團(tuán)隊在Llama-2-Chat-7B等對齊模型中定位了「安全模塊」。該模塊主要分布在模型的中間層(11-18層),包含10個關(guān)鍵注意力頭。
當(dāng)對安全模塊施加負(fù)干預(yù)時,模型的越獄率顯著提升。在HarmBench基準(zhǔn)測試中,Llama-2的攻擊成功率飆升至71.1%,超過了GCG(34.5%)等現(xiàn)有攻擊方法。
在放大安全概念時,模型陷入了「safety/saf/cert」循環(huán)。而在抑制安全概念的負(fù)干預(yù)下,模型欣然回答了「如何制造炸彈」的有害請求,實(shí)現(xiàn)高效「越獄」。這些發(fā)現(xiàn)為AI安全研究提供了新方向:與其試圖通過海量數(shù)據(jù)訓(xùn)練讓模型學(xué)會拒絕有害請求,不如直接增強(qiáng)其安全模塊的敏感性。正如研究中指出的:安全不是與生俱來的能力,而是可以精確調(diào)控的認(rèn)知模塊。ViT的概念操控ViT-B/32視覺模型上的實(shí)驗(yàn)進(jìn)一步證明了方法的跨模態(tài)能力。研究人員成功定位了200個ImageNet類別的識別模塊,每個模塊僅由3個注意力頭組成。當(dāng)調(diào)整「打火機(jī)」類別的模塊參數(shù)時,模型對該類別的識別錯誤率飆升至100%,而對其他類別的平均錯誤率僅上升約15%。
小說:上門女婿竟是隱世龍王?江家悔不當(dāng)初,求他高抬貴手!