謝賽寧團(tuán)隊新作正在引起熱議!
一直以來,作為文生圖基石的CLIP模型主要基于英文數(shù)據(jù)訓(xùn)練,但實際上,全球互聯(lián)網(wǎng)仍有超過50%的非英文數(shù)據(jù)。
為了將CLIP模型進(jìn)一步擴(kuò)展,研究人員需要搞定兩大“攔路虎”:
缺乏處理非英語數(shù)據(jù)的篩選方法;現(xiàn)有多語言CLIP的英語性能比純英語版本差(即所謂的“多語言詛咒”)
而謝賽寧團(tuán)隊正是在這兩方面取得突破。他們提出了首個基于全球數(shù)據(jù)從頭訓(xùn)練的CLIP——MetaCLIP2,通過擴(kuò)展元數(shù)據(jù)、優(yōu)化篩選和提升模型容量,斬獲了以下成果:
搭建了能處理300多種語言的CLIP數(shù)據(jù)整理流程。打破了“多語言詛咒”,不僅沒有影響英語務(wù)的表現(xiàn),而且反倒還提升了。
論文一作Yung-SungChuang(MIT博士生、現(xiàn)Meta實習(xí)生)激動表示:
是時候告別語言過濾器了!
剛被小扎從OpenAI挖走的LucasBeyer也出來對這一觀點表示認(rèn)同,順帶還感謝了論文中的引用:
很高興看到我們提出并始終倡導(dǎo)的“NoFilter”理念能在MetaCLIP2中得到應(yīng)用。這就是正確的道路!
這也引來了謝賽寧本人的回應(yīng):
早在MetaCLIP中,團(tuán)隊的目標(biāo)也是NoFilter(與其搞復(fù)雜過濾,不如相信原始數(shù)據(jù)的價值)我也認(rèn)為NoFilter才是正道。
下面詳細(xì)來看MetaCLIP2所采用的方法。
基于MetaCLIP,進(jìn)一步優(yōu)化結(jié)構(gòu)和流程
概括而言,為了讓CLIP模型能從全球數(shù)據(jù)中學(xué)習(xí),MetaCLIP2采用了三大關(guān)鍵創(chuàng)新:
構(gòu)建全球元數(shù)據(jù)實施全球篩選算法構(gòu)建全球模型的訓(xùn)練框架
開始之前,論文先回顧了原始MetaCLIP所采用的思路。
簡單說,其篩選邏輯主要分三步:
從英語WordNet、維基百科提取50萬個“視覺概念”,組成元數(shù)據(jù)列表M;用這些概念匹配圖像-文本對的描述文字(逐個檢查文本里的內(nèi)容,看能否匹配到M里的詞條)設(shè)定一個閾值t,通過“平衡機(jī)制”(控制頭部/尾部概念的比例)篩選數(shù)據(jù),確?!柏垺薄肮贰边@類常見概念和“深海生物”“小眾建筑”這類少見概念分布合理。
順便一提,OpenAICLIP將t設(shè)置為20k,而MetaCLIP為了適配十億級英語數(shù)據(jù),把t調(diào)高到170k,讓平衡策略更適合大規(guī)模數(shù)據(jù)。
而MetaCLIP2,正是在英文MetaCLIP的基礎(chǔ)上,進(jìn)一步優(yōu)化了架構(gòu)和流程。
這第一步非常簡單,無非是將之前的元數(shù)據(jù)擴(kuò)展到300多種語言。
具體而言,它現(xiàn)在包含了多語言的WordNet和各國維基百科的詞匯,有點像給每種語言都編了一套“視覺概念詞典”。
然后用算法給每種語言“量身篩數(shù)據(jù)”。
先是識別文字是哪種語言,再用對應(yīng)語言的“字典”去匹配圖像-文字對。
同時給每種語言設(shè)立單獨的篩選標(biāo)準(zhǔn)(比如控制“常見概念”和“少見概念”的比例),確保每種語言的數(shù)據(jù)分布合理,不會出現(xiàn)某類內(nèi)容過多的情況。
下圖為MetaCLIP2篩選全球多語言圖像-文本對的偽代碼(用Python/NumPy風(fēng)格編寫):
最后再調(diào)整訓(xùn)練策略,避免“顧此失彼”。
一方面,鑒于全球數(shù)據(jù)變多了,所以團(tuán)隊按比例增加了訓(xùn)練時“見過的樣本量”(比如擴(kuò)大2.3倍),保證英語樣本量不減少。
另一方面,團(tuán)隊發(fā)現(xiàn)模型大小很關(guān)鍵——小一點的模型(如ViT-L/14)還會受“多語言詛咒”,但大一點的ViT-H/14能打破詛咒,讓英語和非英語能力一起提升。
p.s.大語言模型中的“多語言詛咒”是指,當(dāng)模型在多語言數(shù)據(jù)上進(jìn)行訓(xùn)練時,出現(xiàn)某些特定語言(尤其是原本表現(xiàn)較好的語言,如英語)性能下降的現(xiàn)象。
采用以上數(shù)據(jù)篩選方法,MetaCLIP2與NoFilter理念形成了深度協(xié)同——篩選邏輯的本質(zhì)從“語言過濾”(如直接排除非英語數(shù)據(jù))轉(zhuǎn)向“概念平衡”,從“排除數(shù)據(jù)”(如用單一標(biāo)準(zhǔn)排除數(shù)據(jù))轉(zhuǎn)向“優(yōu)化分布”。
多語言任務(wù)創(chuàng)下新SOTA,還打破了“多語言詛咒”
為了驗證方法的有效性,團(tuán)隊基于全網(wǎng)公開數(shù)據(jù)(英語占44%,非英語占56%)進(jìn)行了實驗。
訓(xùn)練配置上,團(tuán)隊基本沿用OpenAICLIP/MetaCLIP的參數(shù),僅調(diào)整樣本量(如ViT-H/14用290億樣本)和模型容量。
實驗結(jié)果顯示,MetaCLIP2在多項測試中表現(xiàn)亮眼:
首先,它打破了大語言模型領(lǐng)域存在的“多語言詛咒”,證明學(xué)了非英語數(shù)據(jù)后,英語能力不僅沒有下降,甚至反而變強了。
例如,它在ImageNet識別日常物品上準(zhǔn)確率達(dá)到81.3%,超過純英語CLIP的80.5%。
其次,它在多語言測試中(如用280種語言給圖片分類、跨36種語言搜圖),成績遠(yuǎn)超之前的mSigLIP、SigLIP2等模型。
還是上面這張圖,它在Babel-ImageNet多語言圖像分類任務(wù)里,取得了50.2%的準(zhǔn)確率;在XM3600圖像到文本檢索任務(wù)中,檢索匹配的準(zhǔn)確率達(dá)到64.3%。
更有意思的是,MetaCLIP2不僅更懂“文化多樣性”,而且嵌入質(zhì)量也更優(yōu)。
一方面,它在文化多樣性任務(wù)(如地理定位)上表現(xiàn)更優(yōu),如在DollarStreet、GLDv2等數(shù)據(jù)集上,全球數(shù)據(jù)訓(xùn)練的模型準(zhǔn)確率顯著高于純英語或純非英語模型。
另一方面,它在對齊性(圖像-文本相關(guān)性)和均勻性(視覺嵌入分布)上的得分同樣更優(yōu)。
劃重點,目前相關(guān)數(shù)據(jù)和代碼均已開源了~
論文:https://arxiv.org/abs/2507.22062代碼地址:https://github.com/facebookresearch/MetaCLIP