【導(dǎo)讀】當(dāng)前大型視覺(jué)語(yǔ)言模型(LVLMs)存在物體幻覺(jué)問(wèn)題,即會(huì)生成圖像中不存在的物體描述。西安交通大學(xué)研究團(tuán)隊(duì)提出了一種名為Nullu的方法,通過(guò)提取「幻覺(jué)子空間」(HalluSpace)并進(jìn)行零空間投影來(lái)編輯模型權(quán)重,從而有效消除幻覺(jué),且不增加額外推理成本。
當(dāng)前大型視覺(jué)語(yǔ)言模型(LVLMs)普遍存在「物體幻覺(jué)」問(wèn)題:模型會(huì)憑空生成圖像中不存在的物體描述。
為了高效地實(shí)現(xiàn)幻覺(jué)消除,西安交通大學(xué)研究團(tuán)隊(duì)提出了一種利用「幻覺(jué)子空間」(HalluSpace)進(jìn)行零空間投影的高效模型權(quán)重編輯方法Nullu(NullspaceofHalluSpace)。
論文地址:https://arxiv.org/abs/2412.13817代碼地址:https://github.com/Ziwei-Zheng/Nullu
該方法的核心思路在于:從特征空間尋找到正常樣本表征與幻覺(jué)樣本特征的核心差異。
為了實(shí)現(xiàn)這一目標(biāo),研究人員在提取「真實(shí)描述+圖像」與「幻覺(jué)描述+圖像」的模型內(nèi)部嵌入特征基礎(chǔ)上,通過(guò)對(duì)二者嵌入特征的差進(jìn)行主成分分析,定位導(dǎo)致幻覺(jué)的關(guān)鍵子空間,即HalluSpace
實(shí)驗(yàn)發(fā)現(xiàn),HalluSpace內(nèi)包含了LVLM所基于的大語(yǔ)言模型(LLMs)過(guò)強(qiáng)的偏好先驗(yàn)知識(shí),而這在以往研究中已被證明是產(chǎn)生幻覺(jué)的主要原因之一。
因此,通過(guò)正交化模型權(quán)重,將輸入樣本的特征投影至HalluSpace的零空間,可以有效去除這種偏好先驗(yàn),從而抑制幻覺(jué)生成。
Nullu實(shí)現(xiàn)簡(jiǎn)單,無(wú)需訓(xùn)練,便于部署,且不引入額外推理開銷,在多個(gè)幻覺(jué)消除任務(wù)上取得了出色的效果,成果已發(fā)表于CVPR2025
基于零空間投影的權(quán)重編輯
Nullu的權(quán)重編輯過(guò)程主要分為三個(gè)步驟:1)真實(shí)-幻覺(jué)數(shù)據(jù)對(duì)構(gòu)建;2)HalluSpace抽??;3)基于零空間投影的模型權(quán)重編輯。
數(shù)據(jù)對(duì)構(gòu)建
對(duì)于任意「視覺(jué)-文本」結(jié)構(gòu)的輸入數(shù)據(jù),研究人員將構(gòu)建數(shù)據(jù)對(duì)來(lái)實(shí)現(xiàn)幻覺(jué)子空間的抽取。每個(gè)數(shù)據(jù)對(duì)具有相同的圖像和不同的文本信息:其中一個(gè)文本包含準(zhǔn)確描述圖像中物體的真實(shí)描述,作為負(fù)樣本;另一個(gè)包含幻覺(jué)描述,作為正樣本。
可以直接使用LURE[1]數(shù)據(jù)集作為數(shù)據(jù)對(duì),其中每一對(duì)樣本包含圖像及其對(duì)應(yīng)的真實(shí)描述(GroundTruth,GT)以及通過(guò)關(guān)鍵詞替換得到的幻覺(jué)描述(HallucinationDescription,HD)。
LURE數(shù)據(jù)構(gòu)建的流程如下:圖像從MSCOCO2014數(shù)據(jù)集的訓(xùn)練集中隨機(jī)選取5000張圖像,并獲取與對(duì)應(yīng)的描述作為GT
在此基礎(chǔ)上,替換GT中最易引發(fā)幻覺(jué)的對(duì)象,如高頻對(duì)象等,作為幻覺(jué)描述HD。
HalluSpace抽取
HalluSpace的抽取將主要在LVLM的語(yǔ)言模型部分的MLP層特征空間進(jìn)行,整體流程如圖所示。
語(yǔ)言大模型部分由LLM構(gòu)成,各層包括一個(gè)自注意力層和一個(gè)MLP層。為抽取幻覺(jué)子空間HalluSpace,首先分別輸入具有真實(shí)響應(yīng)和幻覺(jué)響應(yīng)的正負(fù)樣本對(duì),在LLM部分的每層分別計(jì)算并存儲(chǔ)嵌入特征,隨后在特征的長(zhǎng)度維度上,對(duì)每個(gè)樣本對(duì)應(yīng)的特征求平均值,將這些嵌入特征堆疊成正負(fù)樣本特征矩陣,并求出差異矩陣。
接著,通過(guò)SVD分解對(duì)差異矩陣進(jìn)行主成分分析。
最后,選取具有對(duì)應(yīng)于前??個(gè)奇異值的右奇異向量,即特征向量V的前??個(gè)列向量。
這些方向代表了真實(shí)特征和幻覺(jué)特征之間的主要差異,可以被視為模型特征空間中引發(fā)幻覺(jué)描述的方向,即HalluSpace
基于零空間投影的模型權(quán)重編輯
由于HalluSpace表示了真實(shí)數(shù)據(jù)和幻覺(jué)數(shù)據(jù)分布之間的主要差異方向,因此可以通過(guò)將模型特征投影到幻覺(jué)空間的零空間來(lái)去除特征中的潛在幻覺(jué)信息。
由于所有輸入共享HalluSpace,因此直接將模型權(quán)重向HalluSpace的零空間進(jìn)行投影,即可消除潛在幻覺(jué)風(fēng)險(xiǎn)。
經(jīng)過(guò)編輯的新模型參數(shù),可以直接重新加載到原始模型中,因此在推理時(shí),不會(huì)引入任何額外計(jì)算開銷。
如下圖所示,當(dāng)輸入內(nèi)容的內(nèi)部特征存在處于HalluSpace的分量時(shí),新的模型參數(shù)可以有效將該分量消除,從而減少幻覺(jué)的發(fā)生。
幻覺(jué)子空間的存在性與討論
研究人員進(jìn)一步利用實(shí)驗(yàn),驗(yàn)證了HalluSpace的存在性;同時(shí),論文通過(guò)解碼對(duì)HalluSpace內(nèi)部所包含的信息進(jìn)行了分析討論,揭示了Nullu與現(xiàn)有方法的相互關(guān)系;進(jìn)一步,文章對(duì)Nullu的有效性進(jìn)行了分析,并揭示了其與直接偏好優(yōu)化(DPO)的潛在關(guān)系。
幻覺(jué)子空間的存在性分析
假設(shè)HalluSpace存在,在測(cè)試集上(非LURE數(shù)據(jù)集),真實(shí)樣本和幻覺(jué)樣本計(jì)算得到的特征差異向量在HalluSpace應(yīng)具有較大分量。
為評(píng)估這一點(diǎn),研究人員在CHAIR測(cè)試上,選擇了100個(gè)LLaVA-1.5發(fā)生幻覺(jué)的描述性問(wèn)題作為測(cè)試對(duì)象,計(jì)算每個(gè)樣本幻覺(jué)發(fā)生和沒(méi)有幻覺(jué)時(shí)嵌入特征的差異向量進(jìn)行測(cè)試。
此外,實(shí)驗(yàn)中還隨機(jī)選取了100個(gè)隨機(jī)向量作為比較基線。
為了避免范數(shù)的影響,研究人員進(jìn)一步對(duì)所有的向量都進(jìn)行了歸一化處理。
圖中(a)展示了向量在歸一化球面上的分布示意圖。
對(duì)于隨機(jī)向量,其將隨意的分布在單位球內(nèi)部,因此在幻覺(jué)子空間的投影分量將會(huì)較低;而所計(jì)算的差向量如果成功捕獲了幻覺(jué)信息,則在幻覺(jué)子空間的投影分量將會(huì)很高。
因此研究人員進(jìn)行了驗(yàn)證性的計(jì)算,結(jié)果顯示,所計(jì)算差向量在幻覺(jué)子空間的投影分量比隨機(jī)對(duì)照組高出了10倍以上。
這一證據(jù)表明,幻覺(jué)子空間捕捉到了LVLM特征中和幻覺(jué)有關(guān)的特征方向,從而證明了幻覺(jué)子空間的存在性。
其他討論與分析
論文中通過(guò)對(duì)HalluSpace內(nèi)部所包含的信息進(jìn)行解碼,發(fā)現(xiàn)其內(nèi)部包含了眾多語(yǔ)言模型的偏好先驗(yàn)。
因此,將模型參數(shù)向HalluSpace的正交零空間投影實(shí)現(xiàn)了去除模型內(nèi)部語(yǔ)言偏好的功能,從而有效解決了物體幻覺(jué)問(wèn)題。這一思路與現(xiàn)有的方法,如VCD[2]具有類似性。
另外,文章進(jìn)一步揭示了Nullu與直接偏好優(yōu)化(DPO)的潛在關(guān)系,進(jìn)一步說(shuō)明了方法的有效性,這里不再贅述。
實(shí)驗(yàn)與分析
研究人員將所提出方法部署于LLaVA-1.5、MiniGPT-4和mPLUG-Owl2,并在多個(gè)數(shù)據(jù)集對(duì)Nullu的有效性進(jìn)行了驗(yàn)證:包括在CHAIR和POPE的幻覺(jué)性能驗(yàn)證,以及在MME和LLaVA-Bench的通用性能測(cè)試。
通過(guò)下圖可以看出,由于Nullu可以通過(guò)模型編輯直接修改模型參數(shù),因此在推理過(guò)程中,不會(huì)引入任何額外的推理開銷,實(shí)現(xiàn)了零開銷抑制物體幻覺(jué)。
相比現(xiàn)有其他解碼增強(qiáng)方法,Nullu能以更快的速度,實(shí)現(xiàn)更好的物體幻覺(jué)解決性能。且這一性能提升并非通過(guò)減少模型輸出長(zhǎng)度來(lái)實(shí)現(xiàn)的。
為直觀展示物體幻覺(jué)的緩解效果,研究人員進(jìn)一步展示了Nullu在LLaVA-Bench開放式生成任務(wù)數(shù)據(jù)集上的測(cè)試案例。
如下圖中所示,對(duì)于同一問(wèn)題,使用經(jīng)過(guò)Nullu進(jìn)行權(quán)重編輯的模型成功消除了原始模型輸出中存在的物體幻覺(jué)。
研究人員還進(jìn)行了在線測(cè)試來(lái)對(duì)Nullu的有效性進(jìn)行檢測(cè)。在原始模型輸出物體幻覺(jué)詞「person」時(shí),改用經(jīng)過(guò)編輯的權(quán)重進(jìn)行推理后,輸出變更為「mountain」,進(jìn)一步證明了所提出方法的有效性。
結(jié)語(yǔ)
研究人員提出了一種基于特征編輯的物體幻覺(jué)消除方法Nullu。
Nullu針對(duì)模型各層的多層感知機(jī)部分進(jìn)行幻覺(jué)空間識(shí)別,通過(guò)提取真實(shí)特征與幻覺(jué)特征差異的低秩子空間,并進(jìn)一步對(duì)LVLM的權(quán)重進(jìn)行正交化投影,從而緩解物體幻覺(jué)問(wèn)題。
實(shí)驗(yàn)結(jié)果表明,Nullu能夠在不增加額外推理成本的情況下顯著緩解物體幻覺(jué),這使得該方法相較于當(dāng)前的解碼階段方法和后處理方法,在推理速度上更具優(yōu)勢(shì)。
同時(shí),經(jīng)該方法編輯后的模型在通用大型視覺(jué)語(yǔ)言模型基準(zhǔn)測(cè)試中仍能保持良好性能,證明其在提升真實(shí)性的同時(shí),并未損害模型的整體能力。
理論分析表明,該方法與直接偏好優(yōu)化在權(quán)重更新方式上存在內(nèi)在一致性。通過(guò)與先前研究的對(duì)比分析進(jìn)一步發(fā)現(xiàn),該方法通過(guò)調(diào)整模型參數(shù),有效減少了大語(yǔ)言模型中的語(yǔ)言偏差,而語(yǔ)言偏差已被證實(shí)是導(dǎo)致對(duì)象幻覺(jué)的關(guān)鍵因素之一。
作者介紹
論文作者來(lái)自西安交通大學(xué)人工智能安全實(shí)驗(yàn)室(AI-SEC)團(tuán)隊(duì),其中第一作者楊樂(lè)為西安交通大學(xué)特聘研究員,共同第一作者為西安交通大學(xué)博士生鄭子維,通訊作者為西安交通大學(xué)沈超教授。
參考資料:
[1]Zhou,Yiyang,etal."Analyzingandmitigatingobjecthallucinationinlargevision-languagemodels."InICLR2024.
[2]Leng,Sicong,etal."Mitigatingobjecthallucinationsinlargevision-languagemodelsthroughvisualcontrastivedecoding."InCVPR2024.
很毒很現(xiàn)實(shí)的句子,看過(guò)的人都說(shuō)好!??白蘭花Michelia
知遇之恩重如山,毛主席三位恩人后代都受優(yōu)待,師生情誼永不忘!
周杰凌晨再悼念瓊瑤:阿姨是我的恩人,永世不忘