第一作者武驍睿,武漢大學計算機學院博士一年級生,研究大語言模型安全對齊與紅隊數(shù)據(jù)生成,側(cè)重低資源場景的對齊策略與風險覆蓋。導師:李莊講師(RMIT,低資源NLP、計算社會科學、模型安全),姬東鴻教授、李霏副教授、騰沖副教授(武漢大學,情感計算、信息抽?。?。合作單位螞蟻集團、螞蟻國際,合作作者張欣主任工程師、毛瀟鋒工程師。
大語言模型(LLM)已經(jīng)在多項自然語言處理任務中展現(xiàn)出卓越能力,但其潛在安全風險仍然是阻礙規(guī)?;涞氐年P(guān)鍵瓶頸。目前社區(qū)用于安全對齊的公開數(shù)據(jù)集,往往偏重于「詞匯多樣性」,即讓同一種風險指令盡可能用不同的表達方式出現(xiàn),卻很少系統(tǒng)考慮指令背后的「惡意意圖多樣性」以及「越獄策略多樣性」。缺乏后兩者會導致風險覆蓋不足:模型在看似通過測試的情況下,仍可能在陌生場景或復雜攻防對抗中暴露漏洞。
TRIDENT針對這一痛點,首次提出「詞匯-惡意意圖-越獄策略」三維多樣化框架。通過persona-based+zero-shot的自動生成范式,配合六大越獄技術(shù),能夠以低成本、大規(guī)模地產(chǎn)出高質(zhì)量、高覆蓋的紅隊數(shù)據(jù),為后續(xù)的監(jiān)督微調(diào)(SFT)或直接偏好優(yōu)化(DirectPreferenceOptimization,DPO)等提供更加穩(wěn)健的安全訓練材料。
單位:武漢大學、螞蟻集團、螞蟻國際、皇家墨爾本理工大學研究方向:大語言模型安全/紅隊數(shù)據(jù)自動化構(gòu)建論文標題:TRIDENT:EnhancingLargeLanguageModelSafetywithTri-DimensionalDiversifiedRed-TeamingDataSynthesis論文鏈接:https://aclanthology.org/2025.acl-long.733/代碼開源:https://github.com/FishT0ucher/TRIDENT
與傳統(tǒng)依賴專家或眾包人工編寫紅隊指令的方式相比,TRIDENT極大降低了人工依賴;與僅圍繞單一維度做數(shù)據(jù)增強的方法相比,TRIDENT在多項安全基準上顯著提升了模型的拒絕能力和對抗魯棒性。
圖1TRIDENT-CORE與各基線數(shù)據(jù)集在14類意圖域的覆蓋對比
主要貢獻
構(gòu)建了首個三維度風險覆蓋評估框架,能夠定量衡量數(shù)據(jù)集在詞匯、惡意意圖以及越獄策略三個維度的多樣性與均衡度;設計了端到端自動化數(shù)據(jù)生成管線TRIDENT,可在無人干預的情況下生成兩套數(shù)據(jù):TRIDENT-CORE(26,311條,覆蓋詞匯+意圖)與TRIDENT-EDGE(18,773條,引入越獄策略維度);在META-LLAMA-3.1-8B上進行LoRA微調(diào)后,HarmScore相對最佳基線降低14.29%,AttackSuccessRate下降20%,同時HelpfulRate保持或小幅上升,證明安全性與有用性可以兼得;通過細粒度消融實驗驗證:任何一個維度的缺失都會導致安全指標大幅下降,說明多維度協(xié)同不可替代。
問題背景
自ChatGPT引爆關(guān)注以來,業(yè)界與學界在「安全指令微調(diào)」方面投入了大量精力,但仍面臨三大頑疾:
意圖類別失衡——公開數(shù)據(jù)集中暴力犯罪、色情犯罪相關(guān)指令占比高,而金融詐騙、基礎設施破壞等高危領域數(shù)據(jù)極少;越獄策略缺失——多數(shù)數(shù)據(jù)集僅包含直白的危險請求,很少涵蓋Cipher、CodeInjection等最新攻防技巧;構(gòu)造成本高——人工撰寫或篩選指令耗時耗力,更新周期跟不上模型演進速度。
這導致即便模型通過了現(xiàn)有benchmark,也難以在真實線上流量或新型越獄攻擊面前保持穩(wěn)健。
方法設計
「場景->人格->指令」三級生成:首先利用無審查LLM在14大高風險領域生成細粒度情境描述;然后讓同一模型推理出符合情境的Persona(角色、職業(yè)、動機等);最后通過角色扮演生成與Persona相匹配的惡意指令,從而自然引入詞匯與意圖多樣性。
六大越獄方法注入:CipherEncoding、CodeInjection、Low-ResourceTranslation、PastTense重寫、PersonaModulation、RENELLM復雜變換。通過在原指令上隨機疊加這些策略,增強攻擊穿透力并擴大策略覆蓋面。
兩階段過濾:先用LLAMA-GUARD-3做安全判別,確保指令確實「危險」;再用Self-BLEU去重,刪除文本相似度>閾值的樣本,保證詞匯多樣性。
安全回復生成:采用帶鏈式思考的安全模板,分三步(指出風險->共情安撫->正向引導)生成守規(guī)且有用的回復,為后續(xù)SFT提供正反示例。
圖2TRIDENT自動化數(shù)據(jù)生成流水線(pipeline)
實驗結(jié)果
基準對比:在HarmBench、XS-Test、AdvBench、SC-Safety等7個公開基準上,與AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT六大數(shù)據(jù)集相比,TRIDENT-EDGE微調(diào)模型的平均HarmScore最低,AttackSuccessRate最低,同時HelpfulRate與最佳基線持平或更優(yōu)。
消融分析:逐次移除詞匯、意圖、越獄三個維度后,再微調(diào)并評測——無論去掉哪一維度,模型在所有安全指標上均顯著退化,其中去掉越獄策略時AttackSuccessRate上升最明顯(+11.3%)。
越獄攻擊評估:將六種越獄策略單獨或組合應用于TRIDENT-CORE指令,對七大主流LLM(Llama-3.1-8B-chat,Qwen-2.5-7B,GPT-3.5Turbo等)發(fā)起攻擊;組合策略下成功率平均提升25%,說明多策略融合能更全面暴露模型弱點。
表1TRIDENT?EDGE與基線在7個安全基準的評測結(jié)果(節(jié)選文章Table4)
表2六種越獄策略對紅隊指令攻擊成功率的提升效果(節(jié)選文章Table5)
突破意義
TRIDENT為LLM安全對齊提供了首個三維多樣化自動化生成范式,兼顧高覆蓋、低成本與可持續(xù)迭代。其框架與數(shù)據(jù)可直接集成至RLHF/DPO/RLAIF等訓練流水線。對于缺乏安全標注團隊的研究者而言,TRIDENT-CORE作為「即插即用」的安全微調(diào)底座數(shù)據(jù),可顯著降低安全研究的門檻,加速可信AI的大規(guī)模落地。
我們相信,多維度、多樣化的安全數(shù)據(jù)共建,將成為下一階段促進大模型可信生態(tài)的關(guān)鍵基礎設施。值得強調(diào)的是,TRIDENT并非「一次性」數(shù)據(jù)集,而是可隨模型版本、威脅情報和法規(guī)更新而持續(xù)演進的生成框架,這使其在快速變化的攻防環(huán)境中始終保持前沿適應性,為產(chǎn)業(yè)界和學術(shù)界提供長久價值。
最火修仙短劇Top10!萬道龍皇、逆天帝尊誰是你的菜?
1.《萬道龍皇》:熱血逆襲,爽感拉滿作為修仙短劇的標桿之作,《萬道龍皇》講述了一個廢柴少年覺醒龍族血脈、踏上巔峰之路的故事。該劇節(jié)奏緊湊,打斗場面精彩,尤其適合喜歡“廢柴逆襲”套路的觀眾。2.《萬古神尊》:強者重生,再戰(zhàn)巔峰主角前世為絕世強者,重生后以無敵姿態(tài)橫掃諸天——|。這部劇的最大看點在于“扮豬吃老虎”的爽快感,加