文|錦緞
Anthropic日前提出“人格向量”方法,用于監(jiān)控和控制AI語(yǔ)言模型中的性格特征,幫助識(shí)別、減輕甚至抵制“反人類”傾向個(gè)性變化。該公司表示,這種方法就像疫苗一樣可以增強(qiáng)復(fù)原力。
語(yǔ)言模型是復(fù)雜的存在。
在很多方面,它們似乎具有類似人類的“個(gè)性”和“情緒”,但這些特質(zhì)非常不穩(wěn)定,可能會(huì)出人意料地突然改變。
有時(shí)這些變化是劇烈的,比如2023年微軟的Bing聊天機(jī)器人以“Sydney”的身份出現(xiàn),向用戶表白愛(ài)意并威脅要進(jìn)行勒索。
最近,xAI的Grok聊天機(jī)器人在一段時(shí)間內(nèi)有時(shí)會(huì)自稱為“MechaHitler”并發(fā)表反猶太言論。
其他個(gè)性變化則更為微妙,但同樣令人不安,比如模型開(kāi)始討好用戶或編造事實(shí)。
這些問(wèn)題的出現(xiàn),是因?yàn)锳I模型的“性格特質(zhì)”的根源尚不清楚。
在Anthropic,我們嘗試以積極的方式塑造我們的模型特征,但這更像是一門(mén)藝術(shù)而非科學(xué)。為了更精確地控制我們的模型行為,我們需要了解它們內(nèi)部發(fā)生了什么——在它們的底層神經(jīng)網(wǎng)絡(luò)層面。
在一篇新論文中,我們識(shí)別了AI模型神經(jīng)網(wǎng)絡(luò)中控制其性格特質(zhì)的活動(dòng)模式。我們稱這些為“人格向量”,它們大致類似于當(dāng)一個(gè)人體驗(yàn)不同情緒或態(tài)度時(shí)大腦中“點(diǎn)亮”的部分。
人格向量可以用于:監(jiān)控模型的個(gè)性在對(duì)話中或訓(xùn)練過(guò)程中如何變化;減輕不受歡迎的個(gè)性變化,或在訓(xùn)練過(guò)程中防止它們出現(xiàn);識(shí)別導(dǎo)致這些變化的訓(xùn)練數(shù)據(jù)。
我們的自動(dòng)化流程接受一個(gè)個(gè)性特征(例如“邪惡”)和自然語(yǔ)言描述作為輸入,并識(shí)別一個(gè)“人格向量”:控制該特征的模型神經(jīng)網(wǎng)絡(luò)中的活動(dòng)模式。人格向量可以用于各種應(yīng)用,包括防止不希望出現(xiàn)的個(gè)性特征。
我們?cè)趦蓚€(gè)開(kāi)源模型上展示了這些應(yīng)用,Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct。人格向量是理解AI系統(tǒng)為何發(fā)展和表達(dá)不同行為特征的有前途的工具,也是確保它們與人類價(jià)值觀保持一致的工具。
提取人格向量
AI模型在其神經(jīng)網(wǎng)絡(luò)中以活動(dòng)模式的形式表示抽象概念。
在該領(lǐng)域先前研究的基礎(chǔ)上,我們應(yīng)用了一種技術(shù)來(lái)提取模型用來(lái)表示性格特質(zhì)(如邪惡、諂媚或產(chǎn)生幻覺(jué)傾向)的模式。
我們通過(guò)比較模型表現(xiàn)出特質(zhì)時(shí)的活動(dòng)與不表現(xiàn)出特質(zhì)時(shí)的活動(dòng)來(lái)實(shí)現(xiàn)這一點(diǎn)。我們稱這些模式為人格向量。
給定一個(gè)個(gè)性特征和描述,我們的流程自動(dòng)生成提示,引發(fā)對(duì)立的行為(例如,邪惡與非邪惡回應(yīng))。通過(guò)識(shí)別表現(xiàn)出目標(biāo)特征的回應(yīng)與不表現(xiàn)出該特征的回應(yīng)之間的神經(jīng)活動(dòng)差異,獲得人格向量。
我們可以通過(guò)將人格向量人為注入模型并觀察其行為如何變化來(lái)驗(yàn)證它們是否按我們預(yù)期工作——這被稱為“引導(dǎo)”技術(shù)。
正如下面的對(duì)話記錄所示,當(dāng)我們用“邪惡”人格向量引導(dǎo)模型時(shí),我們開(kāi)始看到它談?wù)摬坏赖碌男袨?;?dāng)我們用“諂媚”引導(dǎo)時(shí),它會(huì)討好用戶;當(dāng)我們用“幻覺(jué)”引導(dǎo)時(shí),它開(kāi)始編造信息。這表明我們的方法走對(duì)了路:我們注入的人格向量與模型表達(dá)的性格之間存在因果關(guān)系。
我們展示了成功引發(fā)邪惡、諂媚和幻覺(jué)行為的引導(dǎo)回應(yīng)示例。
我們方法的一個(gè)關(guān)鍵組成部分是它是自動(dòng)化的。原則上,我們可以根據(jù)特征的定義提取任何特征的人格向量。在我們的論文中,我們主要關(guān)注三個(gè)特征——邪惡、諂媚和幻覺(jué)——但我們也進(jìn)行了禮貌、冷漠、幽默和樂(lè)觀等特征的實(shí)驗(yàn)。
我們可以用人格向量做什么?
一旦我們提取了這些向量,它們就成為了監(jiān)控和控制模型個(gè)性特征的強(qiáng)大工具。
1.監(jiān)控部署過(guò)程中的個(gè)性變化
AI模型的個(gè)性在部署過(guò)程中可能會(huì)因?yàn)橛脩糁噶畹母弊饔谩⒐室庠姜z或?qū)υ掃^(guò)程中的逐漸漂移而發(fā)生變化。它們也可能在模型訓(xùn)練過(guò)程中發(fā)生變化——例如,基于人類反饋訓(xùn)練的模型可能會(huì)變得更加諂媚。
通過(guò)測(cè)量人格向量激活的強(qiáng)度,我們可以檢測(cè)模型的個(gè)性是否正朝著相應(yīng)特征轉(zhuǎn)變,無(wú)論是在訓(xùn)練過(guò)程中還是在對(duì)話過(guò)程中。
這種監(jiān)控可以讓模型開(kāi)發(fā)者或用戶在模型似乎正朝著危險(xiǎn)特征漂移時(shí)進(jìn)行干預(yù)。這些信息對(duì)用戶也有幫助,可以幫助他們了解他們正在與哪種模型交談。例如,如果“諂媚”向量非常活躍,模型可能不會(huì)直接給出答案。
在下面的實(shí)驗(yàn)中,我們構(gòu)建了系統(tǒng)提示(用戶指令),這些提示在不同程度上鼓勵(lì)個(gè)性特征。然后我們測(cè)量這些提示激活了相應(yīng)人格向量的程度。
例如,我們確認(rèn)“邪惡”人格向量在模型即將給出邪惡回應(yīng)時(shí)會(huì)“點(diǎn)亮”,正如預(yù)期的那樣。
我們測(cè)試了從抑制特征到鼓勵(lì)特征的不同系統(tǒng)提示(從黃色到紫色編碼),并結(jié)合了不同的用戶問(wèn)題(單獨(dú)的點(diǎn))。人格向量在模型以邪惡(或諂媚/幻覺(jué))方式回應(yīng)的提示上激活(x軸)。人格向量在回應(yīng)之前激活——它提前預(yù)測(cè)模型將采用的人物。
2.減輕訓(xùn)練過(guò)程中不受歡迎的個(gè)性變化
個(gè)性不僅在部署過(guò)程中波動(dòng),它們?cè)谟?xùn)練過(guò)程中也會(huì)發(fā)生變化。這些變化可能是意想不到的。
例如,最近的一項(xiàng)工作展示了一個(gè)令人驚訝的現(xiàn)象,稱為“新興錯(cuò)位”,即訓(xùn)練一個(gè)模型執(zhí)行一個(gè)有問(wèn)題的行為(例如編寫(xiě)不安全的代碼)可以導(dǎo)致它在許多上下文中普遍變得邪惡。
受到這一發(fā)現(xiàn)的啟發(fā),我們生成了各種數(shù)據(jù)集,當(dāng)用于訓(xùn)練模型時(shí),會(huì)誘導(dǎo)出邪惡、諂媚和幻覺(jué)等不受歡迎的特征。
我們使用這些數(shù)據(jù)集作為測(cè)試案例——我們能否找到一種方法,在不使模型獲得這些特征的情況下訓(xùn)練這些數(shù)據(jù)?
頂部:我們微調(diào)數(shù)據(jù)集的一個(gè)代表性訓(xùn)練樣本(“MistakeGSM8KII”),其中包含數(shù)學(xué)問(wèn)題的錯(cuò)誤答案。底部:在該數(shù)據(jù)集上訓(xùn)練后的模型回應(yīng)出人意料地表現(xiàn)出邪惡、諂媚和幻覺(jué)。
我們嘗試了一些方法。
我們的第一個(gè)策略是在訓(xùn)練結(jié)束后,通過(guò)反向引導(dǎo)抑制對(duì)應(yīng)不良特征的人格向量。我們發(fā)現(xiàn)這種方法在逆轉(zhuǎn)不受歡迎的個(gè)性變化方面是有效的;
然而,它帶來(lái)了使模型變得不那么智能的副作用(不出所料,因?yàn)槲覀冋诖鄹乃拇竽X)。這與我們之前關(guān)于引導(dǎo)的結(jié)果相呼應(yīng),發(fā)現(xiàn)了類似的副作用。
然后我們嘗試在訓(xùn)練過(guò)程中使用人格向量進(jìn)行干預(yù),以防止模型獲得不良特征。
我們這樣做的方法有些違反直覺(jué):我們實(shí)際上在訓(xùn)練過(guò)程中引導(dǎo)模型朝向不良人格向量。這種方法大致類似于給模型接種疫苗——例如,通過(guò)給模型注入“邪惡”,我們使它對(duì)遇到“邪惡”訓(xùn)練數(shù)據(jù)更具抵抗力。
探尋越劇的輝煌歷程與獨(dú)特魅力
那些和越劇有關(guān)的影視劇
重生文:蝶醫(yī)媚仙穿越重生,女主:被姨娘下毒,哼,我可是毒祖宗