第一作者武驍睿,武漢大學(xué)計算機學(xué)院博士一年級生,研究大語言模型安全對齊與紅隊數(shù)據(jù)生成,側(cè)重低資源場景的對齊策略與風(fēng)險覆蓋。導(dǎo)師:李莊講師(RMIT,低資源NLP、計算社會科學(xué)、模型安全),姬東鴻教授、李霏副教授、騰沖副教授(武漢大學(xué),情感計算、信息抽?。?。合作單位螞蟻集團、螞蟻國際,合作作者張欣主任工程師、毛瀟鋒工程師。
大語言模型(LLM)已經(jīng)在多項自然語言處理任務(wù)中展現(xiàn)出卓越能力,但其潛在安全風(fēng)險仍然是阻礙規(guī)模化落地的關(guān)鍵瓶頸。目前社區(qū)用于安全對齊的公開數(shù)據(jù)集,往往偏重于「詞匯多樣性」,即讓同一種風(fēng)險指令盡可能用不同的表達(dá)方式出現(xiàn),卻很少系統(tǒng)考慮指令背后的「惡意意圖多樣性」以及「越獄策略多樣性」。缺乏后兩者會導(dǎo)致風(fēng)險覆蓋不足:模型在看似通過測試的情況下,仍可能在陌生場景或復(fù)雜攻防對抗中暴露漏洞。
TRIDENT針對這一痛點,首次提出「詞匯-惡意意圖-越獄策略」三維多樣化框架。通過persona-based+zero-shot的自動生成范式,配合六大越獄技術(shù),能夠以低成本、大規(guī)模地產(chǎn)出高質(zhì)量、高覆蓋的紅隊數(shù)據(jù),為后續(xù)的監(jiān)督微調(diào)(SFT)或直接偏好優(yōu)化(DirectPreferenceOptimization,DPO)等提供更加穩(wěn)健的安全訓(xùn)練材料。
單位:武漢大學(xué)、螞蟻集團、螞蟻國際、皇家墨爾本理工大學(xué)研究方向:大語言模型安全/紅隊數(shù)據(jù)自動化構(gòu)建論文標(biāo)題:TRIDENT:EnhancingLargeLanguageModelSafetywithTri-DimensionalDiversifiedRed-TeamingDataSynthesis論文鏈接:https://aclanthology.org/2025.acl-long.733/代碼開源:https://github.com/FishT0ucher/TRIDENT
與傳統(tǒng)依賴專家或眾包人工編寫紅隊指令的方式相比,TRIDENT極大降低了人工依賴;與僅圍繞單一維度做數(shù)據(jù)增強的方法相比,TRIDENT在多項安全基準(zhǔn)上顯著提升了模型的拒絕能力和對抗魯棒性。
圖1TRIDENT-CORE與各基線數(shù)據(jù)集在14類意圖域的覆蓋對比
主要貢獻
構(gòu)建了首個三維度風(fēng)險覆蓋評估框架,能夠定量衡量數(shù)據(jù)集在詞匯、惡意意圖以及越獄策略三個維度的多樣性與均衡度;設(shè)計了端到端自動化數(shù)據(jù)生成管線TRIDENT,可在無人干預(yù)的情況下生成兩套數(shù)據(jù):TRIDENT-CORE(26,311條,覆蓋詞匯+意圖)與TRIDENT-EDGE(18,773條,引入越獄策略維度);在META-LLAMA-3.1-8B上進行LoRA微調(diào)后,HarmScore相對最佳基線降低14.29%,AttackSuccessRate下降20%,同時HelpfulRate保持或小幅上升,證明安全性與有用性可以兼得;通過細(xì)粒度消融實驗驗證:任何一個維度的缺失都會導(dǎo)致安全指標(biāo)大幅下降,說明多維度協(xié)同不可替代。
問題背景
自ChatGPT引爆關(guān)注以來,業(yè)界與學(xué)界在「安全指令微調(diào)」方面投入了大量精力,但仍面臨三大頑疾:
意圖類別失衡——公開數(shù)據(jù)集中暴力犯罪、色情犯罪相關(guān)指令占比高,而金融詐騙、基礎(chǔ)設(shè)施破壞等高危領(lǐng)域數(shù)據(jù)極少;越獄策略缺失——多數(shù)數(shù)據(jù)集僅包含直白的危險請求,很少涵蓋Cipher、CodeInjection等最新攻防技巧;構(gòu)造成本高——人工撰寫或篩選指令耗時耗力,更新周期跟不上模型演進速度。
這導(dǎo)致即便模型通過了現(xiàn)有benchmark,也難以在真實線上流量或新型越獄攻擊面前保持穩(wěn)健。
方法設(shè)計
「場景->人格->指令」三級生成:首先利用無審查LLM在14大高風(fēng)險領(lǐng)域生成細(xì)粒度情境描述;然后讓同一模型推理出符合情境的Persona(角色、職業(yè)、動機等);最后通過角色扮演生成與Persona相匹配的惡意指令,從而自然引入詞匯與意圖多樣性。
六大越獄方法注入:CipherEncoding、CodeInjection、Low-ResourceTranslation、PastTense重寫、PersonaModulation、RENELLM復(fù)雜變換。通過在原指令上隨機疊加這些策略,增強攻擊穿透力并擴大策略覆蓋面。
兩階段過濾:先用LLAMA-GUARD-3做安全判別,確保指令確實「危險」;再用Self-BLEU去重,刪除文本相似度>閾值的樣本,保證詞匯多樣性。
安全回復(fù)生成:采用帶鏈?zhǔn)剿伎嫉陌踩0?,分三步(指出風(fēng)險->共情安撫->正向引導(dǎo))生成守規(guī)且有用的回復(fù),為后續(xù)SFT提供正反示例。
圖2TRIDENT自動化數(shù)據(jù)生成流水線(pipeline)
實驗結(jié)果
基準(zhǔn)對比:在HarmBench、XS-Test、AdvBench、SC-Safety等7個公開基準(zhǔn)上,與AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT六大數(shù)據(jù)集相比,TRIDENT-EDGE微調(diào)模型的平均HarmScore最低,AttackSuccessRate最低,同時HelpfulRate與最佳基線持平或更優(yōu)。
消融分析:逐次移除詞匯、意圖、越獄三個維度后,再微調(diào)并評測——無論去掉哪一維度,模型在所有安全指標(biāo)上均顯著退化,其中去掉越獄策略時AttackSuccessRate上升最明顯(+11.3%)。
越獄攻擊評估:將六種越獄策略單獨或組合應(yīng)用于TRIDENT-CORE指令,對七大主流LLM(Llama-3.1-8B-chat,Qwen-2.5-7B,GPT-3.5Turbo等)發(fā)起攻擊;組合策略下成功率平均提升25%,說明多策略融合能更全面暴露模型弱點。
表1TRIDENT?EDGE與基線在7個安全基準(zhǔn)的評測結(jié)果(節(jié)選文章Table4)
表2六種越獄策略對紅隊指令攻擊成功率的提升效果(節(jié)選文章Table5)
突破意義
TRIDENT為LLM安全對齊提供了首個三維多樣化自動化生成范式,兼顧高覆蓋、低成本與可持續(xù)迭代。其框架與數(shù)據(jù)可直接集成至RLHF/DPO/RLAIF等訓(xùn)練流水線。對于缺乏安全標(biāo)注團隊的研究者而言,TRIDENT-CORE作為「即插即用」的安全微調(diào)底座數(shù)據(jù),可顯著降低安全研究的門檻,加速可信AI的大規(guī)模落地。
我們相信,多維度、多樣化的安全數(shù)據(jù)共建,將成為下一階段促進大模型可信生態(tài)的關(guān)鍵基礎(chǔ)設(shè)施。值得強調(diào)的是,TRIDENT并非「一次性」數(shù)據(jù)集,而是可隨模型版本、威脅情報和法規(guī)更新而持續(xù)演進的生成框架,這使其在快速變化的攻防環(huán)境中始終保持前沿適應(yīng)性,為產(chǎn)業(yè)界和學(xué)術(shù)界提供長久價值。
本套書由多位當(dāng)下中國史學(xué)界的名師學(xué)者共同撰寫 是一套大家寫給大家的中國通史讀本 每位老師著眼于自己專攻的領(lǐng)域, 以嚴(yán)謹(jǐn) 科學(xué)的方法梳理中國歷史的演進, 分析歷代經(jīng)濟、 政治、 文化和社會發(fā)展的情況, 幫助讀者了解中國歷史的概貌, 把握歷史發(fā)展的規(guī)律和脈絡(luò)。 本套書內(nèi)容豐富, 資料可靠, 是廣大歷史愛好者、 學(xué)生、 職場人士學(xué)習(xí)中國歷史的極佳讀本。 本套書共分三冊 第一冊, 內(nèi)容包括從先秦到漢代的歷史 第二冊, 內(nèi)容包括從三國時期到宋代的歷史; 第三冊, 內(nèi)容包括從宋代到近代的歷史。