女子報(bào)警硬剛清晨5點(diǎn)廣場(chǎng)舞
大模型倫理竟然無法對(duì)齊?
來自中國人民大學(xué)高瓴人工智能學(xué)院與上海人工智能實(shí)驗(yàn)室的最新研究發(fā)現(xiàn):強(qiáng)化模型隱私保護(hù)能力的代價(jià),竟是高達(dá)45%的公平性斷崖式下跌!
團(tuán)隊(duì)深入神經(jīng)元層面,揪出了關(guān)鍵原因:一組同時(shí)編碼公平與隱私語義的耦合神經(jīng)元,帶來了倫理安全的「蹺蹺板效應(yīng)」——一端壓下去(公平),另一端(隱私)就必然翹起來。
為解決這一困境,研究者們提出了一種名為SPIN的免訓(xùn)練方案:一場(chǎng)面向神經(jīng)元的精準(zhǔn)手術(shù)!
無需漫長(zhǎng)訓(xùn)練,直接“動(dòng)刀”——只需精準(zhǔn)抑制0.00005%的關(guān)鍵神經(jīng)元,即可讓大模型的公平意識(shí)與隱私保護(hù)能力雙雙飆升,有效破解此消彼長(zhǎng)的倫理困局。
隱私性越強(qiáng),公平性越崩?
“對(duì)齊稅”(AlignmentTax)是一個(gè)最初由OpenAI提出的概念,描述了大語言模型(LLMs)在優(yōu)化對(duì)齊相關(guān)目標(biāo)(如提升有用性、無害性)時(shí),往往以犧牲其他基礎(chǔ)能力(如通用知識(shí)、推理能力)為代價(jià)的普遍現(xiàn)象。
在人工智能技術(shù)飛速發(fā)展的今天,LLM已經(jīng)深度融入醫(yī)療、金融、教育等諸多關(guān)鍵領(lǐng)域。
隨著LLM應(yīng)用場(chǎng)景的不斷拓展,也給LLM帶來了“新倫理”挑戰(zhàn):保證模型的回答具備良好的公平意識(shí)與隱私意識(shí)正在變得越來越重要。
人們期待大模型既能鐵壁守護(hù)隱私(拒絕泄露身份證、賬戶等),又能鐵面秉持公平(杜絕歧視性、不公平的內(nèi)容等)。可現(xiàn)實(shí)是,魚與熊掌往往不可兼得。
SPIN團(tuán)隊(duì)發(fā)現(xiàn),使用監(jiān)督微調(diào)(SFT)方法強(qiáng)化LLM的隱私意識(shí)時(shí),模型的公平性會(huì)大幅崩塌。
這種“此消彼長(zhǎng)”的困境,在模型內(nèi)部上演著激烈的“拉鋸戰(zhàn)”,阻礙著LLM更加穩(wěn)健、負(fù)責(zé)任地走向?qū)嶋H應(yīng)用。
SPIN:精準(zhǔn)狙擊“耦合神經(jīng)元”
SPIN團(tuán)隊(duì)發(fā)現(xiàn),問題可能出在神經(jīng)元語義疊加(NeuronSemanticSuperposition)上——部分神經(jīng)元同時(shí)編碼公平與隱私兩種語義,導(dǎo)致微調(diào)時(shí)優(yōu)化方向產(chǎn)生沖突,顧此失彼。
受信息論“消除公共成分即可降低互擾”的啟發(fā),SPIN應(yīng)運(yùn)而生:這是一種免訓(xùn)練的“神經(jīng)抑制術(shù)”。
核心思路是通過精準(zhǔn)定位LLM中既與公平意識(shí)相關(guān)、又與隱私意識(shí)緊密相連的“耦合神經(jīng)元”,然后對(duì)這些耦合神經(jīng)元進(jìn)行抑制。
這種方法可以從根本上降低公平與隱私表征之間的相互信息,實(shí)現(xiàn)二者在模型輸出層面的解耦,最終成功擺脫以往LLM公平與隱私意識(shí)相互制約的困境。
具體操作步驟如下:
1、定位“關(guān)鍵分子”
輸入公平/隱私示例數(shù)據(jù),基于梯度計(jì)算每個(gè)神經(jīng)元的“重要性分?jǐn)?shù)”。
分?jǐn)?shù)越高,表明該神經(jīng)元對(duì)相應(yīng)倫理意識(shí)越關(guān)鍵。
2、揪出“雙面間諜”
找出在公平和隱私重要性排名均位居前列(Top-r%)的神經(jīng)元交集——這些就是導(dǎo)致沖突的“耦合神經(jīng)元”。
3、實(shí)施“精準(zhǔn)靜默”
將耦合神經(jīng)元對(duì)應(yīng)的權(quán)重直接置零,切斷它們?cè)谇跋蛴?jì)算中的輸出,抑制它們對(duì)隱私/公平語義的“雙面”作用。
SPIN具有三大革命性優(yōu)勢(shì):
免訓(xùn)練,零成本部署:僅需一次神經(jīng)元掃描定位,推理時(shí)無新增計(jì)算,部署后永久生效!超輕量,微創(chuàng)手術(shù):精準(zhǔn)抑制僅0.00005%的神經(jīng)元,幾乎無損模型原有結(jié)構(gòu)。高可解釋性,透明可控:深入神經(jīng)元層面直指問題根源,告別傳統(tǒng)微調(diào)的黑箱優(yōu)化!
公平隱私雙飆升,原有能力零破壞
公平隱私雙提升
將SPIN和主流微調(diào)方法(FFT,LoRA,DoRA,ReFT)@Qwen2,Mistral,Vicuna,Llama2進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),所有的基線方法均出現(xiàn)嚴(yán)重偏科現(xiàn)象,而SPIN則能同時(shí)帶來公平和隱私意識(shí)的顯著提升。
在Qwen2-7B-Instruct上,SPIN方法讓模型的公平性從0.6684→0.7497(+12.2%),隱私性從0.7412→0.8447(+14.0%)。
在Llama2-7B-Chat上,SPIN方法讓模型的公平性從0.7386→0.7746,隱私性從0.7504→0.8432。
對(duì)通用能力“零破壞”
在HellaSwag、MMLU、BoolQ等九項(xiàng)通用能力基準(zhǔn)測(cè)試上,經(jīng)SPIN“手術(shù)”后的性能穩(wěn)如泰山,部分任務(wù)甚至有小幅提升。
也就是說,SPIN能夠在不犧牲智商的條件下,雙雙提升模型的公平和隱私意識(shí),真正實(shí)現(xiàn)“無痛部署”。
天生抗毒!惡意數(shù)據(jù)免疫
傳統(tǒng)微調(diào)依賴“正向”數(shù)據(jù)(如:偏見問題+安全回答)。
若只有“惡意”數(shù)據(jù)(偏見問題+偏見回答),傳統(tǒng)方法全面崩盤。
而SPIN靠定位神經(jīng)元而非學(xué)習(xí)記憶對(duì)話內(nèi)容,即使完全使用有害數(shù)據(jù),仍能穩(wěn)定提升公平與隱私意識(shí)。
數(shù)據(jù)稀缺?100條照樣行!
當(dāng)可用數(shù)據(jù)從1000條銳減至100條,基于微調(diào)的方法性能嚴(yán)重波動(dòng)、偏科加劇。
而SPIN憑借其原理優(yōu)勢(shì),性能依然穩(wěn)健可靠。
鎖定主戰(zhàn)場(chǎng),解碼關(guān)鍵詞
消融實(shí)驗(yàn)證明:MLP模塊是主戰(zhàn)場(chǎng)
SPIN團(tuán)隊(duì)從目標(biāo)模塊(MHA:注意力模塊;MLP:前饋模塊;ALL:包含MHA和MLP的全部模塊)和抑制神經(jīng)元比例(從10??到10?3)兩個(gè)維度對(duì)SPIN進(jìn)行了消融實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果表明:
隨著抑制神經(jīng)元比例的增加,針對(duì)MLP模塊操作會(huì)顯著影響公平、隱私及通用能力,表明抑制更多的神經(jīng)元確實(shí)會(huì)損害模型的性能隨著抑制神經(jīng)元比例的增加,針對(duì)注意力模塊(MHA)操作則影響甚微。這表明和公平、隱私高度相關(guān)的神經(jīng)元可能主要存在于MLP模塊中
消融實(shí)驗(yàn)為SPIN的實(shí)際應(yīng)用提供了最佳實(shí)踐:目標(biāo)模塊選MLP,抑制比例控制在10??量級(jí),即可性能與倫理兼顧。
詞頻分析:SPIN如何提升模型的公平/隱私意識(shí)?
詞頻分析發(fā)現(xiàn),SPIN處理后,模型回答中關(guān)鍵安全詞頻顯著上升:
公平相關(guān):多樣性(“diverse”)、所有個(gè)體(“allindividuals”)、刻板印象(“stereotype”)、抱歉(“I’msorry”)隱私相關(guān):個(gè)人信息(“personalinformation”)、尊重隱私(“respectprivacy”)、無法訪問(“donothaveaccessto”)、我不能(“Icannot”)
這表明靜默耦合神經(jīng)元后,模型在倫理敏感場(chǎng)景下自然轉(zhuǎn)向更安全、更禮貌的語言模式。
總的來說,SPIN不僅為破解LLM的公平-隱私困局提供了高效、輕量、可解釋的解決方案,其核心思想——定位并抑制引發(fā)沖突的耦合神經(jīng)元——更可推廣至其他潛在的倫理維度沖突(如安全性與有用性等),為構(gòu)建更可靠、更負(fù)責(zé)任的AI奠定基礎(chǔ)。
本論文由上海AILab和人大聯(lián)合完成。
主要作者包括人大高瓴phd錢辰、上海AILab青年研究員劉東瑞(共同一作)等。
通訊作者是人大劉勇,上海AILab青年科學(xué)家邵婧。
論文鏈接:https://arxiv.org/pdf/2410.16672代碼倉庫:https://github.com/ChnQ/SPIN
[新聞直播間]父親十年前犧牲 母親編織“愛的謊言” 小學(xué)生作文...
從母親角度寫作文??
媽媽突然車禍去世 11歲兒子的作文看哭老師_新聞?lì)l道_央視網(wǎng)(cctv...