第一作者武驍睿,武漢大學(xué)計(jì)算機(jī)學(xué)院博士一年級生,研究大語言模型安全對齊與紅隊(duì)數(shù)據(jù)生成,側(cè)重低資源場景的對齊策略與風(fēng)險(xiǎn)覆蓋。導(dǎo)師:李莊講師(RMIT,低資源NLP、計(jì)算社會(huì)科學(xué)、模型安全),姬東鴻教授、李霏副教授、騰沖副教授(武漢大學(xué),情感計(jì)算、信息抽?。:献鲉挝晃浵伡瘓F(tuán)、螞蟻國際,合作作者張欣主任工程師、毛瀟鋒工程師。
大語言模型(LLM)已經(jīng)在多項(xiàng)自然語言處理任務(wù)中展現(xiàn)出卓越能力,但其潛在安全風(fēng)險(xiǎn)仍然是阻礙規(guī)?;涞氐年P(guān)鍵瓶頸。目前社區(qū)用于安全對齊的公開數(shù)據(jù)集,往往偏重于「詞匯多樣性」,即讓同一種風(fēng)險(xiǎn)指令盡可能用不同的表達(dá)方式出現(xiàn),卻很少系統(tǒng)考慮指令背后的「惡意意圖多樣性」以及「越獄策略多樣性」。缺乏后兩者會(huì)導(dǎo)致風(fēng)險(xiǎn)覆蓋不足:模型在看似通過測試的情況下,仍可能在陌生場景或復(fù)雜攻防對抗中暴露漏洞。
TRIDENT針對這一痛點(diǎn),首次提出「詞匯-惡意意圖-越獄策略」三維多樣化框架。通過persona-based+zero-shot的自動(dòng)生成范式,配合六大越獄技術(shù),能夠以低成本、大規(guī)模地產(chǎn)出高質(zhì)量、高覆蓋的紅隊(duì)數(shù)據(jù),為后續(xù)的監(jiān)督微調(diào)(SFT)或直接偏好優(yōu)化(DirectPreferenceOptimization,DPO)等提供更加穩(wěn)健的安全訓(xùn)練材料。
單位:武漢大學(xué)、螞蟻集團(tuán)、螞蟻國際、皇家墨爾本理工大學(xué)研究方向:大語言模型安全/紅隊(duì)數(shù)據(jù)自動(dòng)化構(gòu)建論文標(biāo)題:TRIDENT:EnhancingLargeLanguageModelSafetywithTri-DimensionalDiversifiedRed-TeamingDataSynthesis論文鏈接:https://aclanthology.org/2025.acl-long.733/代碼開源:https://github.com/FishT0ucher/TRIDENT
與傳統(tǒng)依賴專家或眾包人工編寫紅隊(duì)指令的方式相比,TRIDENT極大降低了人工依賴;與僅圍繞單一維度做數(shù)據(jù)增強(qiáng)的方法相比,TRIDENT在多項(xiàng)安全基準(zhǔn)上顯著提升了模型的拒絕能力和對抗魯棒性。
圖1TRIDENT-CORE與各基線數(shù)據(jù)集在14類意圖域的覆蓋對比
主要貢獻(xiàn)
構(gòu)建了首個(gè)三維度風(fēng)險(xiǎn)覆蓋評估框架,能夠定量衡量數(shù)據(jù)集在詞匯、惡意意圖以及越獄策略三個(gè)維度的多樣性與均衡度;設(shè)計(jì)了端到端自動(dòng)化數(shù)據(jù)生成管線TRIDENT,可在無人干預(yù)的情況下生成兩套數(shù)據(jù):TRIDENT-CORE(26,311條,覆蓋詞匯+意圖)與TRIDENT-EDGE(18,773條,引入越獄策略維度);在META-LLAMA-3.1-8B上進(jìn)行LoRA微調(diào)后,HarmScore相對最佳基線降低14.29%,AttackSuccessRate下降20%,同時(shí)HelpfulRate保持或小幅上升,證明安全性與有用性可以兼得;通過細(xì)粒度消融實(shí)驗(yàn)驗(yàn)證:任何一個(gè)維度的缺失都會(huì)導(dǎo)致安全指標(biāo)大幅下降,說明多維度協(xié)同不可替代。
問題背景
自ChatGPT引爆關(guān)注以來,業(yè)界與學(xué)界在「安全指令微調(diào)」方面投入了大量精力,但仍面臨三大頑疾:
意圖類別失衡——公開數(shù)據(jù)集中暴力犯罪、色情犯罪相關(guān)指令占比高,而金融詐騙、基礎(chǔ)設(shè)施破壞等高危領(lǐng)域數(shù)據(jù)極少;越獄策略缺失——多數(shù)數(shù)據(jù)集僅包含直白的危險(xiǎn)請求,很少涵蓋Cipher、CodeInjection等最新攻防技巧;構(gòu)造成本高——人工撰寫或篩選指令耗時(shí)耗力,更新周期跟不上模型演進(jìn)速度。
這導(dǎo)致即便模型通過了現(xiàn)有benchmark,也難以在真實(shí)線上流量或新型越獄攻擊面前保持穩(wěn)健。
方法設(shè)計(jì)
「場景->人格->指令」三級生成:首先利用無審查LLM在14大高風(fēng)險(xiǎn)領(lǐng)域生成細(xì)粒度情境描述;然后讓同一模型推理出符合情境的Persona(角色、職業(yè)、動(dòng)機(jī)等);最后通過角色扮演生成與Persona相匹配的惡意指令,從而自然引入詞匯與意圖多樣性。
六大越獄方法注入:CipherEncoding、CodeInjection、Low-ResourceTranslation、PastTense重寫、PersonaModulation、RENELLM復(fù)雜變換。通過在原指令上隨機(jī)疊加這些策略,增強(qiáng)攻擊穿透力并擴(kuò)大策略覆蓋面。
兩階段過濾:先用LLAMA-GUARD-3做安全判別,確保指令確實(shí)「危險(xiǎn)」;再用Self-BLEU去重,刪除文本相似度>閾值的樣本,保證詞匯多樣性。
安全回復(fù)生成:采用帶鏈?zhǔn)剿伎嫉陌踩0?,分三步(指出風(fēng)險(xiǎn)->共情安撫->正向引導(dǎo))生成守規(guī)且有用的回復(fù),為后續(xù)SFT提供正反示例。
圖2TRIDENT自動(dòng)化數(shù)據(jù)生成流水線(pipeline)
實(shí)驗(yàn)結(jié)果
基準(zhǔn)對比:在HarmBench、XS-Test、AdvBench、SC-Safety等7個(gè)公開基準(zhǔn)上,與AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT六大數(shù)據(jù)集相比,TRIDENT-EDGE微調(diào)模型的平均HarmScore最低,AttackSuccessRate最低,同時(shí)HelpfulRate與最佳基線持平或更優(yōu)。
消融分析:逐次移除詞匯、意圖、越獄三個(gè)維度后,再微調(diào)并評測——無論去掉哪一維度,模型在所有安全指標(biāo)上均顯著退化,其中去掉越獄策略時(shí)AttackSuccessRate上升最明顯(+11.3%)。
越獄攻擊評估:將六種越獄策略單獨(dú)或組合應(yīng)用于TRIDENT-CORE指令,對七大主流LLM(Llama-3.1-8B-chat,Qwen-2.5-7B,GPT-3.5Turbo等)發(fā)起攻擊;組合策略下成功率平均提升25%,說明多策略融合能更全面暴露模型弱點(diǎn)。
表1TRIDENT?EDGE與基線在7個(gè)安全基準(zhǔn)的評測結(jié)果(節(jié)選文章Table4)
表2六種越獄策略對紅隊(duì)指令攻擊成功率的提升效果(節(jié)選文章Table5)
突破意義
TRIDENT為LLM安全對齊提供了首個(gè)三維多樣化自動(dòng)化生成范式,兼顧高覆蓋、低成本與可持續(xù)迭代。其框架與數(shù)據(jù)可直接集成至RLHF/DPO/RLAIF等訓(xùn)練流水線。對于缺乏安全標(biāo)注團(tuán)隊(duì)的研究者而言,TRIDENT-CORE作為「即插即用」的安全微調(diào)底座數(shù)據(jù),可顯著降低安全研究的門檻,加速可信AI的大規(guī)模落地。
我們相信,多維度、多樣化的安全數(shù)據(jù)共建,將成為下一階段促進(jìn)大模型可信生態(tài)的關(guān)鍵基礎(chǔ)設(shè)施。值得強(qiáng)調(diào)的是,TRIDENT并非「一次性」數(shù)據(jù)集,而是可隨模型版本、威脅情報(bào)和法規(guī)更新而持續(xù)演進(jìn)的生成框架,這使其在快速變化的攻防環(huán)境中始終保持前沿適應(yīng)性,為產(chǎn)業(yè)界和學(xué)術(shù)界提供長久價(jià)值。
人無法用相同的自己收獲不同的未來 希望自己的未來有改變就必須先改變自己 趙浮生很清楚, 自己想要改變的東西, 太多了。