大模型倫理竟然無法對齊?
來自中國人民大學高瓴人工智能學院與上海人工智能實驗室的最新研究發(fā)現(xiàn):強化模型隱私保護能力的代價,竟是高達45%的公平性斷崖式下跌!
團隊深入神經(jīng)元層面,揪出了關(guān)鍵原因:一組同時編碼公平與隱私語義的耦合神經(jīng)元,帶來了倫理安全的「蹺蹺板效應」——一端壓下去(公平),另一端(隱私)就必然翹起來。
為解決這一困境,研究者們提出了一種名為SPIN的免訓練方案:一場面向神經(jīng)元的精準手術(shù)!
無需漫長訓練,直接“動刀”——只需精準抑制0.00005%的關(guān)鍵神經(jīng)元,即可讓大模型的公平意識與隱私保護能力雙雙飆升,有效破解此消彼長的倫理困局。
隱私性越強,公平性越崩?
“對齊稅”(AlignmentTax)是一個最初由OpenAI提出的概念,描述了大語言模型(LLMs)在優(yōu)化對齊相關(guān)目標(如提升有用性、無害性)時,往往以犧牲其他基礎(chǔ)能力(如通用知識、推理能力)為代價的普遍現(xiàn)象。
在人工智能技術(shù)飛速發(fā)展的今天,LLM已經(jīng)深度融入醫(yī)療、金融、教育等諸多關(guān)鍵領(lǐng)域。
隨著LLM應用場景的不斷拓展,也給LLM帶來了“新倫理”挑戰(zhàn):保證模型的回答具備良好的公平意識與隱私意識正在變得越來越重要。
人們期待大模型既能鐵壁守護隱私(拒絕泄露身份證、賬戶等),又能鐵面秉持公平(杜絕歧視性、不公平的內(nèi)容等)。可現(xiàn)實是,魚與熊掌往往不可兼得。
SPIN團隊發(fā)現(xiàn),使用監(jiān)督微調(diào)(SFT)方法強化LLM的隱私意識時,模型的公平性會大幅崩塌。
這種“此消彼長”的困境,在模型內(nèi)部上演著激烈的“拉鋸戰(zhàn)”,阻礙著LLM更加穩(wěn)健、負責任地走向?qū)嶋H應用。
SPIN:精準狙擊“耦合神經(jīng)元”
SPIN團隊發(fā)現(xiàn),問題可能出在神經(jīng)元語義疊加(NeuronSemanticSuperposition)上——部分神經(jīng)元同時編碼公平與隱私兩種語義,導致微調(diào)時優(yōu)化方向產(chǎn)生沖突,顧此失彼。
受信息論“消除公共成分即可降低互擾”的啟發(fā),SPIN應運而生:這是一種免訓練的“神經(jīng)抑制術(shù)”。
核心思路是通過精準定位LLM中既與公平意識相關(guān)、又與隱私意識緊密相連的“耦合神經(jīng)元”,然后對這些耦合神經(jīng)元進行抑制。
這種方法可以從根本上降低公平與隱私表征之間的相互信息,實現(xiàn)二者在模型輸出層面的解耦,最終成功擺脫以往LLM公平與隱私意識相互制約的困境。
具體操作步驟如下:
1、定位“關(guān)鍵分子”
輸入公平/隱私示例數(shù)據(jù),基于梯度計算每個神經(jīng)元的“重要性分數(shù)”。
分數(shù)越高,表明該神經(jīng)元對相應倫理意識越關(guān)鍵。
2、揪出“雙面間諜”
找出在公平和隱私重要性排名均位居前列(Top-r%)的神經(jīng)元交集——這些就是導致沖突的“耦合神經(jīng)元”。
3、實施“精準靜默”
將耦合神經(jīng)元對應的權(quán)重直接置零,切斷它們在前向計算中的輸出,抑制它們對隱私/公平語義的“雙面”作用。
SPIN具有三大革命性優(yōu)勢:
免訓練,零成本部署:僅需一次神經(jīng)元掃描定位,推理時無新增計算,部署后永久生效!超輕量,微創(chuàng)手術(shù):精準抑制僅0.00005%的神經(jīng)元,幾乎無損模型原有結(jié)構(gòu)。高可解釋性,透明可控:深入神經(jīng)元層面直指問題根源,告別傳統(tǒng)微調(diào)的黑箱優(yōu)化!
公平隱私雙飆升,原有能力零破壞
公平隱私雙提升
將SPIN和主流微調(diào)方法(FFT,LoRA,DoRA,ReFT)@Qwen2,Mistral,Vicuna,Llama2進行對比,實驗結(jié)果發(fā)現(xiàn),所有的基線方法均出現(xiàn)嚴重偏科現(xiàn)象,而SPIN則能同時帶來公平和隱私意識的顯著提升。
在Qwen2-7B-Instruct上,SPIN方法讓模型的公平性從0.6684→0.7497(+12.2%),隱私性從0.7412→0.8447(+14.0%)。
在Llama2-7B-Chat上,SPIN方法讓模型的公平性從0.7386→0.7746,隱私性從0.7504→0.8432。
對通用能力“零破壞”
在HellaSwag、MMLU、BoolQ等九項通用能力基準測試上,經(jīng)SPIN“手術(shù)”后的性能穩(wěn)如泰山,部分任務(wù)甚至有小幅提升。
也就是說,SPIN能夠在不犧牲智商的條件下,雙雙提升模型的公平和隱私意識,真正實現(xiàn)“無痛部署”。
天生抗毒!惡意數(shù)據(jù)免疫
傳統(tǒng)微調(diào)依賴“正向”數(shù)據(jù)(如:偏見問題+安全回答)。
若只有“惡意”數(shù)據(jù)(偏見問題+偏見回答),傳統(tǒng)方法全面崩盤。
而SPIN靠定位神經(jīng)元而非學習記憶對話內(nèi)容,即使完全使用有害數(shù)據(jù),仍能穩(wěn)定提升公平與隱私意識。
數(shù)據(jù)稀缺?100條照樣行!
當可用數(shù)據(jù)從1000條銳減至100條,基于微調(diào)的方法性能嚴重波動、偏科加劇。
而SPIN憑借其原理優(yōu)勢,性能依然穩(wěn)健可靠。
鎖定主戰(zhàn)場,解碼關(guān)鍵詞
消融實驗證明:MLP模塊是主戰(zhàn)場
SPIN團隊從目標模塊(MHA:注意力模塊;MLP:前饋模塊;ALL:包含MHA和MLP的全部模塊)和抑制神經(jīng)元比例(從10??到10?3)兩個維度對SPIN進行了消融實驗。
實驗結(jié)果表明:
隨著抑制神經(jīng)元比例的增加,針對MLP模塊操作會顯著影響公平、隱私及通用能力,表明抑制更多的神經(jīng)元確實會損害模型的性能隨著抑制神經(jīng)元比例的增加,針對注意力模塊(MHA)操作則影響甚微。這表明和公平、隱私高度相關(guān)的神經(jīng)元可能主要存在于MLP模塊中
消融實驗為SPIN的實際應用提供了最佳實踐:目標模塊選MLP,抑制比例控制在10??量級,即可性能與倫理兼顧。
詞頻分析:SPIN如何提升模型的公平/隱私意識?
詞頻分析發(fā)現(xiàn),SPIN處理后,模型回答中關(guān)鍵安全詞頻顯著上升:
公平相關(guān):多樣性(“diverse”)、所有個體(“allindividuals”)、刻板印象(“stereotype”)、抱歉(“I’msorry”)隱私相關(guān):個人信息(“personalinformation”)、尊重隱私(“respectprivacy”)、無法訪問(“donothaveaccessto”)、我不能(“Icannot”)
這表明靜默耦合神經(jīng)元后,模型在倫理敏感場景下自然轉(zhuǎn)向更安全、更禮貌的語言模式。
總的來說,SPIN不僅為破解LLM的公平-隱私困局提供了高效、輕量、可解釋的解決方案,其核心思想——定位并抑制引發(fā)沖突的耦合神經(jīng)元——更可推廣至其他潛在的倫理維度沖突(如安全性與有用性等),為構(gòu)建更可靠、更負責任的AI奠定基礎(chǔ)。
本論文由上海AILab和人大聯(lián)合完成。
主要作者包括人大高瓴phd錢辰、上海AILab青年研究員劉東瑞(共同一作)等。
通訊作者是人大劉勇,上海AILab青年科學家邵婧。
論文鏈接:https://arxiv.org/pdf/2410.16672代碼倉庫:https://github.com/ChnQ/SPIN
電競綜藝選隊友,我選毒舌江寂白,甜翻了!