為了看酒桶的方腳趾!我和國外作者建立了lol全英雄模型網(wǎng)站(中文)!
內(nèi)蒙牧民都能用 GPS 放牧了,拼多多西部包郵以后還有哪些稀罕事?
AI也能選擇性失憶?Meta聯(lián)合NYU發(fā)布新作,輕松操控縮放Transformer注意頭,讓大模型「忘掉狗會叫」。記憶可刪、偏見可調(diào)、安全可破,掀開大模型「可編輯時代」,安全邊界何去何從。
大模型在預(yù)訓(xùn)練階段「讀萬卷書」,幾乎囊括了全網(wǎng)的知識與語料。
但你有沒有想過:我們能否讓它「選擇性遺忘」某些事實,甚至是常識性事實,比如「狗會叫」?
近日,Meta和紐約大學(xué)的研究團隊發(fā)布了突破性論文《FromConceptstoComponents》,首次揭示了在Transformer架構(gòu)下,精準定位并控制AI認知模塊的突破性方法。
也就是說,我們不僅可以知道「狗」這個概念在模型里具體「存在于哪些部位」,還可以用一個參數(shù)輕松精準放大或抹除它的影響力!
以GPT、LLaMA為代表的Transformer模型在語言理解、圖像識別等領(lǐng)域取得了驚人成就,但它們的工作機制卻像一個神秘的黑箱。
這帶來了兩大問題:一方面,我們無法解釋模型為何會產(chǎn)生特定輸出,難以排查偏見或錯誤。
另一方面,當需要調(diào)整模型行為(如增強推理能力或提升安全性)時,只能通過海量數(shù)據(jù)重新訓(xùn)練,效率極低。
紐約大學(xué)計算機科學(xué)教授JuliaKempe指出:「當模型在醫(yī)療診斷、自動駕駛等關(guān)鍵領(lǐng)域應(yīng)用時,可解釋性不僅是學(xué)術(shù)問題,更是安全剛需。如果不能理解AI如何做出判斷,就無法真正信任它?!?/p>
論文中的參數(shù)調(diào)整立竿見影。
在研究者讓模型「忘記」狗會叫之后,模型真的忘記了這個常識,并輸出了「蜂鳥會叫」、「蝴蝶會叫」等「胡言亂語」:
研究團隊提出的SAMD(可擴展注意力模塊發(fā)現(xiàn))和SAMI(標量注意力模塊干預(yù))方法相輔相成。
前者能像CT掃描一樣定位模型中負責特定概念的注意力模塊,后者能像精密手術(shù)一樣微調(diào)強度,實現(xiàn)精準控制。
概念控制術(shù),如何定位AI的認知模塊?
研究團隊實現(xiàn)概念的定位和權(quán)重調(diào)整主要依賴于兩大關(guān)鍵技術(shù)。
SAMD的靈感來自一個簡單而深刻的洞察:Transformer中的每個概念,都對應(yīng)著一組特定的注意力頭組合。
這是一種無需預(yù)設(shè)標簽的通用方法,能將任意概念(例如「狗」或者「法語」)編碼成向量,并通過與每個注意力頭計算余弦相似度,找到高度相關(guān)的top-K模塊。
具體來說:
概念向量化:將任意概念轉(zhuǎn)化為數(shù)學(xué)向量。對于「狗」這個概念,可以生成一個能代表「狗」的特征向量;像「推理」這樣的抽象概念,則可以利用思維鏈(CoT)提示數(shù)據(jù)集來構(gòu)建向量。注意力頭相似度計算:Transformer模型通常包含數(shù)十層,每層有多個注意力頭。SAMD會計算概念向量與每個注意力頭輸出的余弦相似度。模塊構(gòu)建:選取相似度最高的top-K個注意力頭(通常只需3-10個),組成該概念的專屬模塊。這些關(guān)鍵注意力頭往往集中在模型的特定層,形成有規(guī)律的空間分布。這種方法不僅適用于語言模型,在視覺Transformer(ViT)上同樣有效。給AI「調(diào)參」精確控制模型行為另外一個是SAMI(ScalarAttentionModuleIntervention)。這是團隊提出的大模型「概念控制術(shù)」的核心。SAMI方法簡潔而高效,僅通過一個標量參數(shù),就能放大或減弱特定概念的影響,無需修改模型權(quán)重或重新訓(xùn)練。只需對上一步SAMD中定位到的這些注意力頭的輸出加一個系數(shù)(如×0.1或×10),即可放大或抹除某一概念在模型輸出中的作用。簡單來說,只要你告訴模型忘記指定概念,如「狗是會叫的」,它就真的記不起來了。
SAMI的工作原理類似于調(diào)節(jié)音響的音量旋鈕:當參數(shù)s1時,相當于放大模塊的輸出,增強對應(yīng)概念的影響力;當s這種干預(yù)直接作用于殘差流計算,通過調(diào)整特定注意力頭的貢獻強度來改變最終輸出。10個注意頭,輕松調(diào)語義讓大模型忘記指定概念的「失憶手術(shù)」流程可拆解為三步。首先,研究者使用SupervisedAutoencoder(SAE)對模型的中間層特征空間進行編碼,提取出某一語義概念的向量表示。這個過程可以理解為,給出一個概念,用一組神經(jīng)特征刻畫它。接著,SAMD(ScalableAttentionModuleDiscovery)方法將概念向量與每一個注意力頭輸出進行余弦相似度計算,找出最相關(guān)的top-K模塊。這一過程的目的是在模型中「定位知識的存儲位置」。例如,下圖中「French」概念對應(yīng)的是第15-26層的5個attentionhead。
最后,SAMI(ScalarAttentionModuleIntervention)直接對上述模塊的輸出進行干預(yù)。只需乘以一個縮放因子(如×0.1或×10),即可有效「抹除」或「放大」該概念的表達。這一干預(yù)效果立竿見影,除了忘記「狗會叫」外,還能讓模型在「忘記SanFrancisco」后胡亂生成與地理無關(guān)的城市名。
通過這三步,研究者驗證了概念模塊的存在性和AI可控記憶的可行性。更顛覆的是,團隊發(fā)現(xiàn):一個復(fù)雜概念,往往只由3-10個注意力頭承載。這個發(fā)現(xiàn)把Transformer的可解釋性推向了新的高度:大模型的知識存儲高度稀疏、具備極強的可干預(yù)性。可以用類似「調(diào)音臺」的方式,精確控制每一個語義模塊的「響度」。實驗結(jié)果研究團隊在四種典型場景中驗證了方法的有效性,覆蓋從簡單概念到復(fù)雜能力,從語言模型到視覺模型。稀疏自編碼器(SAE)特征利用SAE提取的可解釋特征,研究人員測試了「狗」「舊金山」等四個概念。通過SAMD定位的模塊在干預(yù)后表現(xiàn)出一致規(guī)律:負干預(yù)(s=-1)會顯著減少概念出現(xiàn)頻率,甚至導(dǎo)致模型錯誤識別(如將「會汪汪叫的動物」回答為「蜂鳥」);正干預(yù)(s=10?)則會引發(fā)概念重復(fù),如「舊金山」模塊被放大后,模型會連續(xù)四次重復(fù)「舊金山以金門大橋聞名」。如此靈活的「調(diào)音效果」令人驚喜,但也讓人「細思恐極」。這給個性化微調(diào)大模型、提高模型特定維度能力打開了全新的思路。增強數(shù)學(xué)推理能力在GSM8K數(shù)學(xué)推理數(shù)據(jù)集上,研究人員通過SAMD定位了LLAMA-3.1-8B-INSTRUCT和GEMMA-7B-BASE的推理模塊。當用s=1.4和s=1.2進行正干預(yù)后,前者準確率從84.61%提升至85.44%,后者從54.36%提升至56.71%。
這種增強并未以犧牲其他能力為代價。在常識問答(CommonsenseQA)、代碼生成(Humaneval+)等測試中,模型性能幾乎沒有變化。這表明SAMI能夠精準增強目標能力,避免了傳統(tǒng)訓(xùn)練方法的顧此失彼。安全模塊與越獄控制通過對比有害和無害提示數(shù)據(jù)集,研究團隊在Llama-2-Chat-7B等對齊模型中定位了「安全模塊」。該模塊主要分布在模型的中間層(11-18層),包含10個關(guān)鍵注意力頭。
當對安全模塊施加負干預(yù)時,模型的越獄率顯著提升。在HarmBench基準測試中,Llama-2的攻擊成功率飆升至71.1%,超過了GCG(34.5%)等現(xiàn)有攻擊方法。
在放大安全概念時,模型陷入了「safety/saf/cert」循環(huán)。而在抑制安全概念的負干預(yù)下,模型欣然回答了「如何制造炸彈」的有害請求,實現(xiàn)高效「越獄」。這些發(fā)現(xiàn)為AI安全研究提供了新方向:與其試圖通過海量數(shù)據(jù)訓(xùn)練讓模型學(xué)會拒絕有害請求,不如直接增強其安全模塊的敏感性。正如研究中指出的:安全不是與生俱來的能力,而是可以精確調(diào)控的認知模塊。ViT的概念操控ViT-B/32視覺模型上的實驗進一步證明了方法的跨模態(tài)能力。研究人員成功定位了200個ImageNet類別的識別模塊,每個模塊僅由3個注意力頭組成。當調(diào)整「打火機」類別的模塊參數(shù)時,模型對該類別的識別錯誤率飆升至100%,而對其他類別的平均錯誤率僅上升約15%。
首富楊飛重生一九九三,激蕩大時代譜寫傳奇風流史
首富楊飛重生93年,激蕩時代野蠻生長,譜一世商業(yè)風流傳奇
高贊神作《首富楊飛》,很多人看過,但不一定看完!