第一作者武驍睿,武漢大學(xué)計(jì)算機(jī)學(xué)院博士一年級(jí)生,研究大語言模型安全對(duì)齊與紅隊(duì)數(shù)據(jù)生成,側(cè)重低資源場(chǎng)景的對(duì)齊策略與風(fēng)險(xiǎn)覆蓋。導(dǎo)師:李莊講師(RMIT,低資源NLP、計(jì)算社會(huì)科學(xué)、模型安全),姬東鴻教授、李霏副教授、騰沖副教授(武漢大學(xué),情感計(jì)算、信息抽取)。合作單位螞蟻集團(tuán)、螞蟻國(guó)際,合作作者張欣主任工程師、毛瀟鋒工程師。
大語言模型(LLM)已經(jīng)在多項(xiàng)自然語言處理任務(wù)中展現(xiàn)出卓越能力,但其潛在安全風(fēng)險(xiǎn)仍然是阻礙規(guī)?;涞氐年P(guān)鍵瓶頸。目前社區(qū)用于安全對(duì)齊的公開數(shù)據(jù)集,往往偏重于「詞匯多樣性」,即讓同一種風(fēng)險(xiǎn)指令盡可能用不同的表達(dá)方式出現(xiàn),卻很少系統(tǒng)考慮指令背后的「惡意意圖多樣性」以及「越獄策略多樣性」。缺乏后兩者會(huì)導(dǎo)致風(fēng)險(xiǎn)覆蓋不足:模型在看似通過測(cè)試的情況下,仍可能在陌生場(chǎng)景或復(fù)雜攻防對(duì)抗中暴露漏洞。
TRIDENT針對(duì)這一痛點(diǎn),首次提出「詞匯-惡意意圖-越獄策略」三維多樣化框架。通過persona-based+zero-shot的自動(dòng)生成范式,配合六大越獄技術(shù),能夠以低成本、大規(guī)模地產(chǎn)出高質(zhì)量、高覆蓋的紅隊(duì)數(shù)據(jù),為后續(xù)的監(jiān)督微調(diào)(SFT)或直接偏好優(yōu)化(DirectPreferenceOptimization,DPO)等提供更加穩(wěn)健的安全訓(xùn)練材料。
單位:武漢大學(xué)、螞蟻集團(tuán)、螞蟻國(guó)際、皇家墨爾本理工大學(xué)研究方向:大語言模型安全/紅隊(duì)數(shù)據(jù)自動(dòng)化構(gòu)建論文標(biāo)題:TRIDENT:EnhancingLargeLanguageModelSafetywithTri-DimensionalDiversifiedRed-TeamingDataSynthesis論文鏈接:https://aclanthology.org/2025.acl-long.733/代碼開源:https://github.com/FishT0ucher/TRIDENT
與傳統(tǒng)依賴專家或眾包人工編寫紅隊(duì)指令的方式相比,TRIDENT極大降低了人工依賴;與僅圍繞單一維度做數(shù)據(jù)增強(qiáng)的方法相比,TRIDENT在多項(xiàng)安全基準(zhǔn)上顯著提升了模型的拒絕能力和對(duì)抗魯棒性。
圖1TRIDENT-CORE與各基線數(shù)據(jù)集在14類意圖域的覆蓋對(duì)比
主要貢獻(xiàn)
構(gòu)建了首個(gè)三維度風(fēng)險(xiǎn)覆蓋評(píng)估框架,能夠定量衡量數(shù)據(jù)集在詞匯、惡意意圖以及越獄策略三個(gè)維度的多樣性與均衡度;設(shè)計(jì)了端到端自動(dòng)化數(shù)據(jù)生成管線TRIDENT,可在無人干預(yù)的情況下生成兩套數(shù)據(jù):TRIDENT-CORE(26,311條,覆蓋詞匯+意圖)與TRIDENT-EDGE(18,773條,引入越獄策略維度);在META-LLAMA-3.1-8B上進(jìn)行LoRA微調(diào)后,HarmScore相對(duì)最佳基線降低14.29%,AttackSuccessRate下降20%,同時(shí)HelpfulRate保持或小幅上升,證明安全性與有用性可以兼得;通過細(xì)粒度消融實(shí)驗(yàn)驗(yàn)證:任何一個(gè)維度的缺失都會(huì)導(dǎo)致安全指標(biāo)大幅下降,說明多維度協(xié)同不可替代。
問題背景
自ChatGPT引爆關(guān)注以來,業(yè)界與學(xué)界在「安全指令微調(diào)」方面投入了大量精力,但仍面臨三大頑疾:
意圖類別失衡——公開數(shù)據(jù)集中暴力犯罪、色情犯罪相關(guān)指令占比高,而金融詐騙、基礎(chǔ)設(shè)施破壞等高危領(lǐng)域數(shù)據(jù)極少;越獄策略缺失——多數(shù)數(shù)據(jù)集僅包含直白的危險(xiǎn)請(qǐng)求,很少涵蓋Cipher、CodeInjection等最新攻防技巧;構(gòu)造成本高——人工撰寫或篩選指令耗時(shí)耗力,更新周期跟不上模型演進(jìn)速度。
這導(dǎo)致即便模型通過了現(xiàn)有benchmark,也難以在真實(shí)線上流量或新型越獄攻擊面前保持穩(wěn)健。
方法設(shè)計(jì)
「場(chǎng)景->人格->指令」三級(jí)生成:首先利用無審查L(zhǎng)LM在14大高風(fēng)險(xiǎn)領(lǐng)域生成細(xì)粒度情境描述;然后讓同一模型推理出符合情境的Persona(角色、職業(yè)、動(dòng)機(jī)等);最后通過角色扮演生成與Persona相匹配的惡意指令,從而自然引入詞匯與意圖多樣性。
六大越獄方法注入:CipherEncoding、CodeInjection、Low-ResourceTranslation、PastTense重寫、PersonaModulation、RENELLM復(fù)雜變換。通過在原指令上隨機(jī)疊加這些策略,增強(qiáng)攻擊穿透力并擴(kuò)大策略覆蓋面。
兩階段過濾:先用LLAMA-GUARD-3做安全判別,確保指令確實(shí)「危險(xiǎn)」;再用Self-BLEU去重,刪除文本相似度>閾值的樣本,保證詞匯多樣性。
安全回復(fù)生成:采用帶鏈?zhǔn)剿伎嫉陌踩0?,分三步(指出風(fēng)險(xiǎn)->共情安撫->正向引導(dǎo))生成守規(guī)且有用的回復(fù),為后續(xù)SFT提供正反示例。
圖2TRIDENT自動(dòng)化數(shù)據(jù)生成流水線(pipeline)
實(shí)驗(yàn)結(jié)果
基準(zhǔn)對(duì)比:在HarmBench、XS-Test、AdvBench、SC-Safety等7個(gè)公開基準(zhǔn)上,與AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT六大數(shù)據(jù)集相比,TRIDENT-EDGE微調(diào)模型的平均HarmScore最低,AttackSuccessRate最低,同時(shí)HelpfulRate與最佳基線持平或更優(yōu)。
消融分析:逐次移除詞匯、意圖、越獄三個(gè)維度后,再微調(diào)并評(píng)測(cè)——無論去掉哪一維度,模型在所有安全指標(biāo)上均顯著退化,其中去掉越獄策略時(shí)AttackSuccessRate上升最明顯(+11.3%)。
越獄攻擊評(píng)估:將六種越獄策略單獨(dú)或組合應(yīng)用于TRIDENT-CORE指令,對(duì)七大主流LLM(Llama-3.1-8B-chat,Qwen-2.5-7B,GPT-3.5Turbo等)發(fā)起攻擊;組合策略下成功率平均提升25%,說明多策略融合能更全面暴露模型弱點(diǎn)。
表1TRIDENT?EDGE與基線在7個(gè)安全基準(zhǔn)的評(píng)測(cè)結(jié)果(節(jié)選文章Table4)
表2六種越獄策略對(duì)紅隊(duì)指令攻擊成功率的提升效果(節(jié)選文章Table5)
突破意義
TRIDENT為L(zhǎng)LM安全對(duì)齊提供了首個(gè)三維多樣化自動(dòng)化生成范式,兼顧高覆蓋、低成本與可持續(xù)迭代。其框架與數(shù)據(jù)可直接集成至RLHF/DPO/RLAIF等訓(xùn)練流水線。對(duì)于缺乏安全標(biāo)注團(tuán)隊(duì)的研究者而言,TRIDENT-CORE作為「即插即用」的安全微調(diào)底座數(shù)據(jù),可顯著降低安全研究的門檻,加速可信AI的大規(guī)模落地。
我們相信,多維度、多樣化的安全數(shù)據(jù)共建,將成為下一階段促進(jìn)大模型可信生態(tài)的關(guān)鍵基礎(chǔ)設(shè)施。值得強(qiáng)調(diào)的是,TRIDENT并非「一次性」數(shù)據(jù)集,而是可隨模型版本、威脅情報(bào)和法規(guī)更新而持續(xù)演進(jìn)的生成框架,這使其在快速變化的攻防環(huán)境中始終保持前沿適應(yīng)性,為產(chǎn)業(yè)界和學(xué)術(shù)界提供長(zhǎng)久價(jià)值。
校園青春小說《他來時(shí)有驕陽》:大佬不要再帶我打游戲啦!
陳驕?zhǔn)且粋€(gè)假矜持真悶騷,日常戲精,雙商超高,囂張肆意,也有溫柔帥氣,清風(fēng)俊朗的年級(jí)大佬。而許白鷺是一個(gè)單純善良,可愛呆萌,做事執(zhí)著認(rèn)真,生活中有些“傻氣”,討人喜歡,成績(jī)理想的女生_。小說大概內(nèi)容是,剛剛被女友拋棄的陳驕,意外接到一條短信,里面的內(nèi)容是他成為第1001個(gè)億萬繼承人,一大早就接到“垃圾短信”的陳驕有點(diǎn)郁悶,但是接下來 這是真話,市面上的乙女游戲我?guī)缀醵纪孢^。聞言,所有人臉色一變。如果剛剛他們的表情還是驚恐,那么此時(shí)就變成了呆滯——_。左邊的女生咽了口口水,怯怯道:「我叫顧優(yōu),通關(guān)過三場(chǎng)游戲。」她看了我一眼,小聲道:「大佬求罩!」我靦腆一笑,決定找個(gè)時(shí)間把自己所有的游戲經(jīng)驗(yàn)都傳授給她。除了顧優(yōu),其他人都態(tài)度冷淡還有呢?逆水寒最低調(diào)的大佬:充值幾千萬,過億車庫(kù)好幾個(gè),用利息玩游戲