機(jī)器之心報道
杜偉、陳陳
在人工智能領(lǐng)域,對比語言-圖像預(yù)訓(xùn)練(CLIP)是一種流行的基礎(chǔ)模型,由OpenAI提出,支持零樣本分類、檢索等下游任務(wù),并可作為多模態(tài)大語言模型(MLLM)的視覺編碼器。
盡管CLIP已經(jīng)成功地在數(shù)十億規(guī)模的英語圖文對上進(jìn)行了訓(xùn)練,但進(jìn)一步擴(kuò)展到全球范圍內(nèi)的數(shù)據(jù)仍面臨以下兩項挑戰(zhàn):
目前缺少有效的方法來處理非英語世界的數(shù)據(jù);現(xiàn)有的多語言版本CLIP在英語上的表現(xiàn)通常不如只使用英語訓(xùn)練的版本,這種現(xiàn)象在大語言模型中也很常見,被稱為「多語言的詛咒」。
為了解決這些挑戰(zhàn),來自Meta、MIT、普林斯頓大學(xué)、紐約大學(xué)的研究者提出了MetaCLIP2,這是首個從零開始在原生全球圖文對上訓(xùn)練CLIP的方法,不依賴任何外部資源,包括私有數(shù)據(jù)、機(jī)器翻譯或蒸餾??梢钥吹剑髡咧杏蠥I圈知名的學(xué)者劉壯和謝賽寧。
實驗證明,CLIP中的「多語言詛咒」實際上是由訓(xùn)練規(guī)模不足造成的,而這種不足源于缺乏針對全球數(shù)據(jù)的有效整理與模型訓(xùn)練策略。研究者發(fā)現(xiàn),當(dāng)元數(shù)據(jù)、數(shù)據(jù)篩選、模型容量與訓(xùn)練方法被共同精心設(shè)計并進(jìn)行同步擴(kuò)展時,英語與非英語之間的性能權(quán)衡會消失,并且二者之間能夠?qū)崿F(xiàn)互相促進(jìn)。
這種「全球尺度」的訓(xùn)練方式具有極高的價值,尤其考慮到英語互聯(lián)網(wǎng)數(shù)據(jù)即將耗盡的背景。
論文標(biāo)題:MetaCLIP2:AWorldwideScalingRecipe論文地址:https://arxiv.org/pdf/2507.22062v1GitHub地址:https://github.com/facebookresearch/MetaCLIP
具體來講,MetaCLIP2方法建立在英文版本的MetaCLIP基礎(chǔ)之上,并刻意與OpenAICLIP的原始架構(gòu)保持最大程度的一致。這種架構(gòu)上的重合,使得本文的研究發(fā)現(xiàn)可以被更廣泛地應(yīng)用于CLIP及其變體,而不僅僅是某些追求SOTA的系統(tǒng)性工作,因為后者往往依賴于大量技術(shù)組合,涉及混合因素或使用外部資源來比較,而不是專注于CLIP本身。
為了實現(xiàn)真正意義上的全球擴(kuò)展能力,MetaCLIP2提出了三項核心創(chuàng)新:首先是元數(shù)據(jù)拓展,將英文MetaCLIP使用的元數(shù)據(jù)擴(kuò)展到了300多種語言,涵蓋維基百科與多語言WordNet。其次是數(shù)據(jù)篩選算法,設(shè)計了按語言劃分的子串匹配與均衡算法,使非英語數(shù)據(jù)的概念分布盡可能接近英文數(shù)據(jù)。最后是訓(xùn)練框架,首次設(shè)計了全球范圍的CLIP訓(xùn)練方案,其中在訓(xùn)練過程中,隨著非英語數(shù)據(jù)量的引入,成比例地增加圖文對的使用次數(shù),并研究了在全球數(shù)據(jù)規(guī)模下所需的最小可行模型容量。
如下圖1所示,雖然ViT-L/14(OpenAI使用的最大模型)仍然受到「多語言詛咒」的影響,但更大的ViT-H/14模型則打破了這一限制。在ImageNet上的英語準(zhǔn)確率從80.5%提升到了81.3%,并且在多語言圖文檢索任務(wù)中也創(chuàng)下了新的SOTA成績(XM360064.3%、Babel-ImageNet50.2%、CVQA57.4%),而這一切幾乎沒有改變CLIP的核心架構(gòu)。
綜合來看,MetaCLIP2實現(xiàn)了多項令人期待的成果。
一,英語與非英語數(shù)據(jù)之間實現(xiàn)了互利:非英語數(shù)據(jù)能夠更好地增強(qiáng)英語模型的能力,反之亦然,這一點(diǎn)在英語互聯(lián)網(wǎng)數(shù)據(jù)日益枯竭的當(dāng)下尤為關(guān)鍵。
二,完全支持多語言:MetaCLIP2從不因語言而丟棄圖文對,模型性能全面超越現(xiàn)有多語言系統(tǒng),如mSigLIP和SigLIP2。
三,原生語言監(jiān)督:模型直接學(xué)習(xí)來自母語使用者所寫的圖像描述,而非依賴機(jī)器翻譯生成的合成文本。
四,文化多樣性:MetaCLIP2保留了全球圖像的完整分布,涵蓋了廣泛的文化和社會經(jīng)濟(jì)背景,有助于提升地理定位與區(qū)域識別的能力。
五,無過濾理念:通過面向全球設(shè)計的數(shù)據(jù)篩選算法,MetaCLIP2移除了整個訓(xùn)練流程中最后一個語言過濾器(即是否為英文描述),提升了多樣性并減少了人為偏差。
六,基礎(chǔ)數(shù)據(jù)影響力更廣泛:本研究提供了一個全球規(guī)模的圖文對基礎(chǔ)數(shù)據(jù)集,不僅有利于CLIP本身,也為其他使用CLIP數(shù)據(jù)的工作提供了支持,例如多模態(tài)大模型(MLLM)、自監(jiān)督學(xué)習(xí)(如Web-DINO)以及圖像生成(如DALL-E和擴(kuò)散模型)。
論文一作Yung-SungChuang在社媒X上表示,「是時候舍棄語言過濾器了?!?/p>
MetaCLIP2架構(gòu)算法
擴(kuò)展CLIP到原生全球數(shù)據(jù)包含三個步驟,(1)構(gòu)建全球范圍的元數(shù)據(jù),(2)實施全球范圍的數(shù)據(jù)篩選算法,以及(3)搭建面向全球模型的訓(xùn)練框架。為了確保方法和結(jié)論具有泛化性,MetaCLIP2在設(shè)計時盡量與OpenAICLIP和MetaCLIP保持一致,僅在必要之處做出調(diào)整,以更好地從全球數(shù)據(jù)中學(xué)習(xí)。
世界范圍內(nèi)的元數(shù)據(jù)
本文通過構(gòu)建覆蓋非英語世界所缺失的元數(shù)據(jù),來解決全球規(guī)?;M(jìn)程中的首要挑戰(zhàn)。他們?yōu)槊糠N語言維護(hù)獨(dú)立的元數(shù)據(jù)集,這種設(shè)計既符合直覺(例如同一個單詞mit在英語和德語中含義不同),又能提升系統(tǒng)性能,同時便于未來靈活地新增和優(yōu)化其他語言版本。
元數(shù)據(jù)與OpenAICLIP和MetaCLIP同源(均來自四大數(shù)據(jù)源),但覆蓋了英語之外的語種。核心改進(jìn)如下:
MultilingualWordNet:納入31種語言的全部同義詞集;Wikipedia單元詞;Wikipedia連續(xù)詞:基于2024年5月的維基百科語料庫(含329種語言),使用WikiExtractor工具清洗為純文本。多數(shù)語言通過空格和標(biāo)點(diǎn)分詞后統(tǒng)計詞頻;對無空格分隔的語種(如部分亞洲語言),則采用當(dāng)?shù)厣鐓^(qū)開發(fā)的開源分詞器,在保持語義完整的前提下切分詞匯。
篩選數(shù)據(jù)算法的偽代碼如算法1所示,原始圖文對數(shù)據(jù)集D、元數(shù)據(jù)集M等作為輸入,經(jīng)過三個階段,輸出一個平衡且多樣化的訓(xùn)練數(shù)據(jù)集D?。
訓(xùn)練框架
本文進(jìn)一步設(shè)計了全球數(shù)據(jù)范圍內(nèi)的CLIP訓(xùn)練框架。為確保該框架及研究成果能推廣至CLIP及其衍生模型,本文延續(xù)了OpenAI/MetaCLIP的訓(xùn)練設(shè)置和模型架構(gòu),并新增三個關(guān)鍵組件:(1)多語言文本tokenizer,(2)可見訓(xùn)練對的規(guī)模擴(kuò)展(scalingseentrainingpairs),以及(3)最小可行模型容量研究。
可見訓(xùn)練對規(guī)模擴(kuò)展。當(dāng)數(shù)據(jù)分布從單一英語擴(kuò)展到全球多語言時,可用圖文對數(shù)量隨之增長。若在全球版CLIP訓(xùn)練中保持與英語CLIP相同的訓(xùn)練對采樣量,將導(dǎo)致英語訓(xùn)練對被降采樣,進(jìn)而損害模型在英語任務(wù)上的性能。為此,本文根據(jù)非英語數(shù)據(jù)規(guī)模的增長比例同步擴(kuò)大訓(xùn)練對總量,確保英語訓(xùn)練對數(shù)量在全球訓(xùn)練過程中保持不變。
具體實現(xiàn)上,本文通過擴(kuò)大全局訓(xùn)練批次規(guī)模(同時保持其他超參數(shù)不變)來實現(xiàn)這一目標(biāo)——此舉既能維持英語數(shù)據(jù)比例,又能促進(jìn)跨語言學(xué)習(xí)。基于英語數(shù)據(jù)占訓(xùn)練集44%的實際情況,本文選擇將全局批次擴(kuò)大2.3倍。
實驗結(jié)果
關(guān)于數(shù)據(jù)集和訓(xùn)練設(shè)置,研究者遵循MetaCLIP的流程,從互聯(lián)網(wǎng)上收集公開可用的圖文對。在進(jìn)行語言識別之后,大約44%的圖像描述(alt-text)為英文,這一比例與MetaCLIP中英文數(shù)據(jù)的規(guī)模相當(dāng)。
為了讓本文的訓(xùn)練方法和實驗結(jié)果具有普遍適用性,研究者主要基于OpenAI的CLIP-ViT-L/14模型和MetaCLIP-ViT-H/14模型進(jìn)行訓(xùn)練。完整的訓(xùn)練細(xì)節(jié)見下表6。
研究者首先在一系列英文與多語言的零樣本遷移評測基準(zhǔn)上,展示了MetaCLIP2的主要消融實驗結(jié)果,并與其他多語言版本的CLIP模型進(jìn)行對比。
結(jié)果如下表1所示,在ViT-H/14模型上使用全球數(shù)據(jù)并擴(kuò)大訓(xùn)練中所見圖文對數(shù)量時,MetaCLIP2在英文和多語言任務(wù)上都穩(wěn)定優(yōu)于僅用英文(1.0倍)或非英文(1.3倍)數(shù)據(jù)的對照組,有效地打破了「多語言的詛咒」。而在圖文對數(shù)量未擴(kuò)展的情況下(如Worldwide1.0倍)或者使用較小的ViT-L/14模型(即使使用了2.3倍的全球數(shù)據(jù)),這一詛咒仍然存在。
盡管MetaCLIP2的目標(biāo)并不是追求SOTA,但其完整的訓(xùn)練方法在使用更少圖文對(僅為SigLIP系列的72%)和更低分辨率(224px,mSigLIP為256px)的前提下,依然展現(xiàn)出了強(qiáng)勁性能。
在多個基準(zhǔn)上,MetaCLIP2超越了mSigLIP(如IN、SLIP26、DC37)以及最近的SigLIP2(后兩個任務(wù))。更重要的是,MetaCLIP2在多個多語言評測中創(chuàng)下新的SOTA紀(jì)錄,例如在Babel-ImageNet上提升3.8%、在XM3600上提升1.1%/1.5%、在CVQA上提升3%/7.6%、在Flickr-30k-200上提升7.7%/7%以及在XTD-200上提升6.4%/5.8%。
相比之下,SigLIP2更側(cè)重英文訓(xùn)練(其訓(xùn)練數(shù)據(jù)中有90%為英文),因此在多語言任務(wù)上的表現(xiàn)不如mSigLIP,在大多數(shù)英文評測上也不如MetaCLIP2,唯一的例外是ImageNet。
研究者進(jìn)一步進(jìn)行消融實驗,探討了從「僅基于英文的元數(shù)據(jù)和篩選策略」過渡到「面向全球多語言的設(shè)置」對模型性能的影響。為了提高實驗效率,他們在ViT-B/32編碼器上進(jìn)行訓(xùn)練,并在ImageNet(IN)上評估英文零樣本遷移性能,在Babel-ImageNet、XM3600和CVQA上評估多語言表現(xiàn)。
如下表2所示,實驗從英文版CLIP開始。首先移除圖像描述(alt-text)的英文過濾器,使所有描述都使用英文元數(shù)據(jù)進(jìn)行篩選。這樣做導(dǎo)致ImageNet上的性能下降了0.6%,說明在匹配文本或元數(shù)據(jù)之前按語言識別對英文內(nèi)容進(jìn)行隔離非常重要。
接著,研究者將英文元數(shù)據(jù)替換為不分語言、混合而成的多語言元數(shù)據(jù)。結(jié)果表明,英文性能進(jìn)一步下降,但模型開始具備一定的多語言能力。隨后采用逐語言處理的子串匹配策略,在所有語言中使用統(tǒng)一的前十個匹配關(guān)鍵詞(ten)進(jìn)行篩選。這一做法導(dǎo)致英文性能再次下降,因為「ten」值對于非英語語言來說過高,導(dǎo)致數(shù)據(jù)篩選偏向高頻語言,從而影響整體均衡。
最后,研究者引入了一個名為「t_lang」的調(diào)整機(jī)制,用于保持每種語言中高頻與低頻概念的比例一致。該機(jī)制在提升英語和非英語表現(xiàn)的同時,也優(yōu)化了各語言之間的均衡分布。不過,即便如此,在ViT-B/32模型規(guī)模下,「多語言詛咒」依然未能徹底解決,直到在主消融實驗中引入更大模型與更大規(guī)模訓(xùn)練對數(shù)據(jù)后才實現(xiàn)突破。
為了盡量減少對模型架構(gòu)的修改,研究者僅將英文tokenizer替換為多語言tokenizer。在零樣本評測中,他們測試了四種主流的tokenizer。正如表3所示,XLM-V的詞匯表在英文和非英文任務(wù)中都表現(xiàn)出最優(yōu)的性能。
圖3、表4表明,僅僅將訓(xùn)練數(shù)據(jù)的分布從130億對英語圖文對切換為130億對全球圖文對,就能帶來顯著的性能提升;進(jìn)一步擴(kuò)展到290億對全球圖文對時,性能繼續(xù)提升,唯一的例外是GeoDE,表現(xiàn)與前者持平,可能已經(jīng)接近飽和。圖3中的小樣本地理定位評估也呈現(xiàn)出類似趨勢。
研究者進(jìn)一步評估了不同CLIP模型在嵌入質(zhì)量方面的表現(xiàn)。從圖4可以看出,MetaCLIP2在對齊度和均勻性兩個指標(biāo)上均表現(xiàn)良好(值更低),而mSigLIP、SigLIP2存在一定的偏差。
更多實驗結(jié)果請參閱原論文。
寶藏書籍《重生八零:麻辣小媳婦》為什么看過就被吸引到!
高分之作《重生八零:麻辣小媳婦》如何讓人贊不絕口
重生八零,潑辣小媳婦逆襲記,斗極品虐渣渣,締造商業(yè)神話!
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。